Построение семантического пространства интенциональностей с использованием генеративных предобученных моделей для решения задачи фильтрации спама
Авторы:
Аннотация:
Одним из ключевых элементов при решении фильтрации спам-сообщений является метод векторизации текстов. Предлагается способ векторизации, основанный на сопоставлении текста парам интенциональностей. Выделен список пар интенциональностей, и сгенерирован синтетический датасет из текстовых высказываний. Спроектирована и обучена нейронная сеть, которая определяет степень принадлежности каждой интенциональности к текстовому выражению на входе модели. Разработанный метод протестирован на задаче фильтрации спам-сообщений с использованием логистической регрессии и наборов данных Enron dataset и SMS dataset.