От эксплуатации к защите: анализ атак на большие языковые модели

doi:10.48612/jisp/mbvv-n1u7-z7be

От эксплуатации к защите: анализ атак на большие языковые модели

Системы машинного обучения и управления базами знаний

Авторы:

Величко И. С. Беззатеев С. В.

Аннотация:

Современные большие языковые модели обладают впечатляющими возможностями, но остаются уязвимыми перед различными атаками, способными манипулировать их ответами, приводить к утечке конфиденциальных данных или обходить запреты. Основное внимание уделяется анализу атак типа «инъекция промпта» (prompt injection), позволяющих обойти ограничения модели, извлечь скрытые данные или заставить ее следовать вредоносным инструкциям.