От эксплуатации к защите: анализ методов защиты от атак на языковые модели

Системы машинного обучения и управления базами знаний
Авторы:
Аннотация:

Современные большие языковые модели обладают высокой функциональностью, но остаются уязвимыми перед атаками, способными манипулировать их поведением, извлекать конфиденциальные данные или обходить встроенные ограничения. Основное внимание уделяется методам защиты языковых моделей. Рассматриваются и анализируются различные стратегии защиты, включая фильтрацию запросов, изоляцию контекста, обучение на зашумленных данных и другие подходы. Проводится сравнительный анализ эффективности защитных механизмов, выявляются их ограничения и перспективы дальнейшего развития для обеспечения безопасности языковых моделей.