gonzo-обзоры ML статей

Improving Neural Language Models with a Continuous Cache
Edouard Grave, Armand Joulin, Nicolas Usunier
Статья: https://arxiv.org/abs/1612.04426

Уже довольно старая статья частично тех же авторов, что и недавно описанный Feedback Transformer. И, мне кажется, она тоже недостаточно известна.

Идея проста и эффективна: давайте кешировать прошлые активации языковой модели (имеется в виду скрытое состояние RNN) с соответствовавшими им словами, и при вычислении вероятности генерации очередного слова ходить в кеш (через dot product attention), чтобы модифицировать эти вероятности на основе хранимого в кеше длинного контекста.

Это по сути упрощённый вариант memory-augmented моделей. Память активаций есть, модель в неё ходит, но, что интересно, механизм крайне прост, вообще не требует обучения и может быть добавлен к уже имеющейся модели. Такая память может быть объёмом в тысячи ячеек.

Технически, механизм очень простой. При генерации слова X_{i+1} из скрытого состояния H_i мы сохраняем в кеше пару (H_i, X_{i+1}). В момент t генерации очередного слова мы считаем dot product текущего состояния H_t со всеми состояниями в кеше и получаем распределение вероятностей соответствующих слов из кеша. Затем эту вероятность можно замешать с обычной вероятностью генерации слов предварительно обученной моделью (замешивать можно разными способами). С получившимся модифицированным распределением вероятностей работаем как обычно, например, сэмплим из него.

Модель кеша эксплуатирует наблюдение, что как только слово встретилось в документе однажды, гораздо больше шансов встретить его вновь. Она улучшает языковую модель, отлавливая дальние зависимости. Это позволяет эффективно адаптировать модель к новому домену, а также такие модели могут предсказывать внесловарные слова после того, как те один раз уже встретились (и чтобы это работало, я так понимаю, X_{i+1} это не слово, которое мы сгенерили в момент времени i, а слово, которое пришло на вход в момент времени i+1 и которое мы привязали к скрытому состоянию H_i). Ну и вообще хорошая работа с дальними зависимостями улучшает качество сгенерированного текста.

Модель даёт хорошее улучшение относительно базовой LSTM и чем больше размер памяти, тем заметнее улучшение. Авторы продемонстрировали, что модель скейлится до тысяч ячеек, сохраняя способность улучшать результаты. Элементарно добавить поверх обученной модели.

Интересно, кстати, было бы добавить поверх GPT-3, хотя в трансформерах с этим, пожалуй, из коробки несколько получше, но всё равно потенциально можно расширить контекст. И вообще, кажется, тогда получится лайтовый вариант Feedback Transformer. Ну тоже интересно, особенно тем, что отдельное обучение не требуется (которое у Feedback Transformer было к тому же более медленным).

Эта статья попала постером на ICLR 2017.

У статьи есть продолжение “Unbounded cache model for online language modeling with open vocabulary” (https://arxiv.org/abs/1711.02604), попавшее на NIPS 2017. Там добавляют неограниченную память, в которой хранят вообще всё предыдущее, а для вытаскивания из кеша используют approximate kNN (k=200...1000).

Тут по идее можно было бы собрать аналог лайтового Feedback Transformer с очень большим контекстом, и в случае GPT-3 иметь просто гигантские промпты, что весьма интересно. Расскажите, если кто доберётся попробовать раньше меня.

👍1

2.67K views12:34