От эксплуатации к защите: анализ атак на большие языковые модели

Системы машинного обучения и управления базами знаний
Авторы:
Аннотация:

Современные большие языковые модели обладают впечатляющими возможностями, но остаются уязвимыми перед различными атаками, способными манипулировать их ответами, приводить к утечке конфиденциальных данных или обходить запреты. Основное внимание уделяется анализу атак типа «инъекция промпта» (prompt injection), позволяющих обойти ограничения модели, извлечь скрытые данные или заставить ее следовать вредоносным инструкциям.