Построение семантического пространства интенциональностей с использованием генеративных предобученных моделей для решения задачи фильтрации спама

doi:10.48612/jisp/rk44-9aab-nxha

Построение семантического пространства интенциональностей с использованием генеративных предобученных моделей для решения задачи фильтрации спама

Безопасность распределенных систем и телекоммуникаций

Авторы:

Жуков И. Ю. Балашова Е. Е. Мандров А. П. Кравченко Н. Д.

Аннотация:

Одним из ключевых элементов при решении фильтрации спам-сообщений является метод векторизации текстов. Предлагается способ векторизации, основанный на сопоставлении текста парам интенциональностей. Выделен список пар интенциональностей, и сгенерирован синтетический датасет из текстовых высказываний. Спроектирована и обучена нейронная сеть, которая определяет степень принадлежности каждой интенциональности к текстовому выражению на входе модели. Разработанный метод протестирован на задаче фильтрации спам-сообщений с использованием логистической регрессии и наборов данных Enron dataset и SMS dataset.