Защита от состязательных атак на базе динамически перестраиваемого ансамбля моделей машинного обучения

Защита от состязательных атак на базе динамически перестраиваемого ансамбля моделей машинного обучения

Системы машинного обучения и управления базами знаний

Авторы:

Аннотация:

Рассмотрена проблема защиты моделей машинного обучения от состязательных атак. Представлен метод защиты, основанный на динамически перестраиваемом ансамбле классификаторов с механизмом отказа, который объединяет: случайную комбинацию гетерогенных подмоделей, онлайн-анализ дисперсии прогнозов, имитацию правдоподобного ответа при атаке и механизм моделей-ловушек. Анализ согласованности выходов внутри ансамбля и отказ от выдачи наиболее вероятного прогноза снижает результативность действий нарушителя при анализе им обратной связи, получаемой от целевой модели, и генерации состязательных образцов. Экспериментальная оценка, проведенная на наборе данных UNSW-NB15, показала, что разработанный метод сохраняет высокую исходную точность защищаемой модели при воздействии состязательных атак (85−95%) при минимальном ее снижении на 1−3 п. п. Метод позволяет устранить до 98% атак, что значительно превосходит показатели таких широко распространенных аналогов.