Обеспечение устойчивости систем искусственного интеллекта с онлайн-обучением на основе оценки схожести моделей
Авторы:
Аннотация:
Исследуется проблема защиты систем искусственного интеллекта с онлайн-обучением от атак отравления. Для повышения устойчивости предложен подход, основанный на оценке схожести работы двух вычислительных моделей: эталонной (исходной) и эксплуатационной (тестовой). Определены индикаторы нарушения устойчивости: снижение точности предсказаний (TA), отклонение общего уровня уверенности модели (TPV) и уменьшение косинусного сходства весов моделей (cos_similarity). В результате экспериментальных исследований установлено, что предложенное решение позволяет своевременно выявлять отравленные данные, поддерживая высокую точность классификации при целенаправленных атаках на вычислительную модель, динамически дообучающуюся на тестовых данных.