Кластерный анализ векторных представлений вредоносных запросов к языковым моделям: сравнение методов получения эмбеддингов на основе символьных N-грамм, отдельных слов и целых предложений
Исследование направлено на сравнительный анализ способов токенизации и методов векторизации текстов для выявления вредоносных jailbreak-запросов к большим языковым моделям. На примере датасета из нормальных и вредоносных промптов оценены три подхода: агрегация векторов символьных N-грамм, агрегация эмбеддингов отдельных слов и семантические представления целых запросов. Результаты показали, что методы на основе токенов обеспечивают высокий охват угроз за счет фиксации повторяющихся фрагментов текста, но сопровождаются повышенным уровнем ложных срабатываний. Семантические эмбеддинги целых запросов демонстрируют высокую точность, но ограниченный охват из-за сложности выявления редких и маскирующихся атак. Один из ключевых выводов — векторные представления позволяют добиться кластерной разделимости benign- и jailbreak-запросов, что делает возможным использование простых алгоритмов фильтрации даже в условиях ограниченных вычислительных ресурсов. Работа обосновывает применимость двухэтапной схемы защиты, в которой кластеризация служит предварительным фильтром, а дальнейшая обработка проводится лишь для подозрительных запросов. В отдельных конфигурациях фильтрации удалось достичь охвата до 96% вредоносных запросов при сохранении приемлемого уровня точности, что подчеркивает практическую значимость подхода для интеграции в программный интерфейс больших языковых моделей.