Комбинация методов выборочного вмешательства учителя в процесс обучения ученика и низкоранговая адаптация в модели дистилляции знаний

doi:10.48612/jisp/339u-d6ba-5kzm

Комбинация методов выборочного вмешательства учителя в процесс обучения ученика и низкоранговая адаптация в модели дистилляции знаний

Системы машинного обучения и управления базами знаний

Авторы:

Татарникова Т. М. Сикарев И. А. Абрамов В. М.

Аннотация:

Обсуждается проблема оптимизации нейронных сетей для задач больших языковых моделей типа ChatGPT. Одним из развиваемых направлений оптимизации больших языковых моделей является дистилляция знаний — передача знаний от большой модели учителя к меньшей модели ученика без существенной потери точности результата. Известные методы дистилляции знаний имеют определенные недостатки: неточная передача знаний, долгий процесс обучения, накапливание ошибки в длинных последовательностях. Рассматривается комбинация методов, способствующих повышению качества дистилляции знаний: выборочное вмешательство учителя в процесс обучения ученика и низкоранговая адаптация. Предложенная комбинация методов дистилляции знаний может найти применение в задачах с ограниченными вычислительными ресурсами.