gonzo-обзоры ML статей

Интересно, что на TruthfulQA Gopher первый, кто улучшает результат от увеличения размера модели. GPT-2, 3, J и T5 наоборот деградируют. И вообще модель с 280B первая, кто существенно превосходит случайное угадывание.

В работе большая секция про токсичность и bias’ы. В целом токсичность сгенерированного текста хорошо коррелирует с токсичностью промпта, который в неё подали, и большие модели реагируют сильнее. Но при отсутствии токсичности на входе, она низка и на выходе и не увеличивается с ростом модели.

Bias’ы ожидаемо присутствуют, рост модели их не устраняет. Из интересного, качество модели на малопредставленных в датасете диалектах (African American) хуже на всех размерах модели.

Также модель попробовали в диалоге. Хоть она на такие задачи и не обучалась, есть примеры прям хорошие. Но и плохие она тоже умеет генерить.

Отдельный большой блок экспериментов в работе посвящён эффективным архитектурам. Это, конечно, логично и важно. И так уже дошли до точки, когда единицы компаний в мире могут такое делать. И то не помногу раз.

Попробовали разные варианты файнтюнинга: полный, верхние 40% слоёв или только смещения. Для заданного вычислительного бюджета файнтюнинг полной модели работает лучше.

Попробовали дистилляцию, для начала классическую, предсказывающую выходы модели и из большой модели в меньшую. Модель-студент получалась лучше, чем если её обучать с нуля, но всё равно далеко до оригинальной более тяжёлой модели. Также пробовали добавлять в дистилляцию внимание, было чуть получше, но возни очень много, процедуру сильно усложняло.

Сделали прунинг, классический на основе магнитуды весов, но особого профита не получили. Также попробовали динамическое разреженное обучение RigL (https://t.me/gonzo_ML/204), также получили минимальный профит.

Пробовали обратную дистилляцию, когда из маленькой модели обучают бОльшую, на старте оно ускоряет процесс обучения, но дальше профит малый, а возня снова требуется.

Неплохо сработало то, что авторы называют warm starting, когда начинают с маленькой модели, а потом её расширяют, каким-то образом заполняя новые веса — лучше всего сработала процедура, когда с увеличением глубины слои реплицируют, а с увеличением ширины делают tiling (больше деталей в приложении G.3.3). Это сработало лучше, чем новая инициализация, с сохранением распределения или же очень малыми значениями для сохранения поведения модели.

Это вот интересный блок подходов, здесь ещё явно поле непаханное.

Отдельная работа (https://deepmind.com/research/publications/2021/improving-language-models-by-retrieving-from-trillions-of-tokens) посвящена другому интересному ответвлению — специальному варианту языковой модели под названием Retro (Retrieval-Enhanced Transformer), которая умеет делать conditioning на куски текста, поднятые из обучающего датасета по похожести на входную последовательность.

Короче, результат интересный, но для нас, простых смертных, до кого эта модель скорее всего ни в каком виде не долетит, ограниченно полезный. Из Gopher’а foundation model не получится, останется в закромах. Хотя всё про масштабы скейлинга всё равно ценно.