Комбинация методов выборочного вмешательства учителя в процесс обучения ученика и низкоранговая адаптация в модели дистилляции знаний
Обсуждается проблема оптимизации нейронных сетей для задач больших языковых моделей типа ChatGPT. Одним из развиваемых направлений оптимизации больших языковых моделей является дистилляция знаний — передача знаний от большой модели учителя к меньшей модели ученика без существенной потери точности результата. Известные методы дистилляции знаний имеют определенные недостатки: неточная передача знаний, долгий процесс обучения, накапливание ошибки в длинных последовательностях. Рассматривается комбинация методов, способствующих повышению качества дистилляции знаний: выборочное вмешательство учителя в процесс обучения ученика и низкоранговая адаптация. Предложенная комбинация методов дистилляции знаний может найти применение в задачах с ограниченными вычислительными ресурсами.