Многозначная классификация меток классов системных журналов компьютерных сетей. Формализация задачи

Системы машинного обучения и управления базами знаний
Авторы:
Аннотация:

Постановка задачи: Важной проблемой интеллектуальной обработки данных системных журналов является существование наборов данных, содержащих записи с несколькими ассоциациями меток классов. Набор данных, пригодный к классификации, как правило содержит множество признаков и ассоциированное с ним множество меток класса. Целью классификации является обученная модель, способная присвоить соответствующий класс неизвестному объекту (записи в «исторических данных»). Решение этой проблемы сопряжено с экспоненциальным ростом комбинаций меток, которые необходимо учитывать, а также вычислительными затратами на построение моделей интеллектуального анализа. Проблема многозначности меток классов применительно к компьютерным сетям в настоящее время недостаточно изучена. Цель исследования: Формализация задачи многозначной классификации экспериментальных данных (бинарной или многоклассовой) на примере записей системных журналов КС и демонстрация ее применимости к задачам информационной безопасности. Новизна: заключается в иллюстрации наличия многозначности меток классов при анализе записей системных журналов, порожденных КС. Показано, что данная особенность присуща большинству КС, к которым предъявляются граничные требования сразу по нескольким показателям (атрибутам) заранее определенного уровня обслуживания (Service Level Objectives, SLO). В случае возникновения аномальных состояний сразу по нескольким атрибутам, возрастание количества меток является предпосылкой к возникновению редкого аномального состояния (системной аномалии) КС в текущий момент времени. Результаты: Показано, что проблема многозначности меток классов системных журналов актуальна для анализа доступности и целостности циркулирующей в КС информации. Показано, что многозначность классовых меток проявляется не только в возникновении нескольких состояний КС в текущий момент времени, но и в неявном точечно-множественном отображении известных атрибутов КС в эти состояния. Показано, что при однозначном обучении метка, возвращаемая такими алгоритмами, является скалярной величиной, а получаемые при этом однозначные классификаторы маркируют данные с потерей информации. Многозначный подход оперирует метками как множествами (или векторами), а получаемый при этом многозначный классификатор может присваивать состояниям КС сразу несколько меток одновременно, что повышает точность классификации. Показана значимость вторичных атрибутов «исторических данных», определяющих качество многозначной классификации. Практическая значимость: Многозначность меток классов системных журналов актуальна в областях диагностики неисправностей аппаратных компонентов КС, обнаружения атак, выявлении подозрительной сетевой активности и других задачах информационной безопасности.