gonzo-обзоры ML статей
24.3K subscribers
2.94K photos
2 videos
3 files
1.45K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Всем, кто оставил свои координаты в этом опросе, мы разослали приглашение в дискорд, где дальше собираемся вести движуху по разбору статей вокруг AGI.

Если вам по какой-то причине не пришла ссылка в почту, дайте знать.
И ещё одно объявление.

Мы планируем запустить онлайн семинар/журнальный клуб по разбору статей вокруг общего искусственного интеллекта (AGI). Если вам интересно участвовать в этой активности в качестве слушателя или докладчика (или ещё как), ответьте, пожалуйта, на вопросы анкеты:

https://forms.gle/6dx54vmruiSVAv9A8
Артефакт от нашего вчерашнего первого журнального клуба по статьям вокруг AGI.

https://docs.google.com/presentation/d/1Ys8Tjn7rEIjd36ZfYezcA95A8mL31V7Xgu89RtIRjxM/edit?usp=sharing

Следующий журнальный клуб планируем в субботу 5 декабря в 18:00.

Если вам тоже интересно участвовать в этой активности в качестве слушателя или докладчика (или ещё как), ответьте, пожалуйта, на вопросы анкеты, и мы пригласим вас в наш дискорд:

https://forms.gle/6dx54vmruiSVAv9A8
Если кому интересно железо, я написал очередную огромную статью с разбором, что сейчас есть из специализированных процессоров для DL:

https://blog.inten.to/hardware-for-deep-learning-part-4-asic-96a542fe6a81

Комментарии, замечания и предложения приветствуются.

Ну и там, лайки, шеры, алишеры :)
kōan: A Corrected CBOW Implementation
Ozan İrsoy, Adrian Benton, Karl Stratos
Статья: https://arxiv.org/abs/2012.15332
Код: https://github.com/bloomberg/koan

Интересная история в мире NLP из серии “наше представление о мироздании было неверным”.

Классический word2vec имеет два варианта обучения эмбеддингов: Continuous bag-of-words (CBOW, здесь по контексту предсказывается центральное слово) и Skip-gram (SG, здесь наоборот по центральному слову предсказываются слова контекста). Первый быстрее, потому что негативный сэмплинг требуется только для центрального слова, а не для каждого слова контекста. Но общее убеждение было, что SG даёт лучшее качество.

И вот ребята из Блумберга заявляют, что это не обосновано какими-то теоретическими различиями, а дело в референсных имплементациях word2vec (родной от Томаса Миколова и также часто используемой из Gensim), где много лет была бага. И вроде как в генсимовских issues на гитхабе на это несколько раз указывали.

Копание показало, что градиент для входных (source) эмбеддингов считается неверно, он не делится на размер окна контекста (то есть, считай, избыточно умножается на размер этого окна). Это было бы ничего, если бы среди обучаемых весов были только входные эмбеддинги, тогда максимум бы пришлось поправить learning rate. Но там же есть и выходные (target), которые масштабировать не надо, и получается что градиент для общего вектора весов в итоге указывает “не совсем туда”.

Авторы собрали исправленный вариант CBOW и показали, что он даёт сопоставимое с SG качество. Заодно ещё сделали оптимизированный негативный сэмплинг и выложили реализацию на С++17.

На генсимовской реализации есть просадка по качеству у CBOW по сравнению с SG, а на новой нету. Но правда есть пара противоречивых результатов, на SST-2 и QNLI из GLUE генсимовский CBOW таки почему-то прям существенно обогнал по качеству всё остальное. У меня нет объяснения такому результату, это какой-то странный подземный стук, который, мне кажется, говорит, что вопрос ещё не до конца закрыт. Надо копать дальше!

В любом случае кейс интересный. Проверяйте надёжность основ и не доверяйте безоглядно тому, что “общепринято”.
Ускоренный сэмплинг
(для тех кто забыл что такое CBOW/SG, картинка из https://arxiv.org/abs/1301.3781)
DeBERTa: Decoding-enhanced BERT with Disentangled Attention
Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen
Статья: https://arxiv.org/abs/2006.03654
Код: https://github.com/microsoft/DeBERTa
Модель в Transformers: https://huggingface.co/transformers/model_doc/deberta.html
Пост: https://www.microsoft.com/en-us/research/blog/microsoft-deberta-surpasses-human-performance-on-the-superglue-benchmark/

В зоопарке с бертами громкое пополнение. Microsoft захватил лидерство в SuperGLUE (https://super.gluebenchmark.com/leaderboard) с моделью DeBERTa (итоговый скор 90.3), попутно превзойдя human baseline (скор 89.8) на этом бенчмарке. В затылок лидеру дышит гугловая T5 + Meena, также превосходящая человека (90.2). Гугл пока про этот свой прорыв отмалчивается.

Что за зверь эта DeBERTa?

По большому счёту DeBERTa — это RoBERTa с двумя усовершенствованиями.

1) Разделённый механизм внимания (disentangled attention), в котором каждый токен кодируется двумя векторами: вектор контента и вектор позиции (относительной), для работы с которыми заведены отдельные матрицы.

В оригинальном трансформере, как вы помните, вектор был один и представлял собой сумму контентного и позиционного эмбеддинга. В оригинальной работе были абсолютные позиционные эмбеддинги, считавшиеся через синусы, в последующих работах также были относительные, но важно, что они арифметически суммировались с контентными в один итоговый вектор эмбеддинга (H), который дальше и прилетал на вход каждого слоя self-attention.

Здесь на вход пролетает пара {H, P}, где H — это по-прежнему контентные эмбеддинги (на входе посчитанные для BPE-токенов, а далее — выходы с предыдущих слоёв self-attention), а P — относительные позиционные эмбеддинги, кодирующие связь токена на позиции i с токеном на позиции j, которые считаются из относительного расстояния между i и j.

Вес внимания между двумя такими {H, P} состоял бы из четырёх компонент: content-to-content (как в оригинале), content-to-position, position-to-content и position-to-position. От последнего отказываются, потому что он вроде как не добавляет новой информации при использовании относительных позиций. В итоге получается, что к традицинным контентным K,Q,V добавляются позиционные Q_r и K_r и соответствующие им матрицы проекций.

Ну и нормализуют теперь не на корень из d, а на корень из 3d.

2) Enhanced mask decoder (EMD), где перед финальным софтмаксом, когда модель должна уже декодировать замаскированные токены при обучении с MLM (Masked Language Model), к контекстным эмбеддингам добавляются _абсолютные_ позиционные (важно, в механизме внимания были _относительные_ позиционные эмбеддинги). Потому что, по мнению авторов, абсолютная позиция слова в некоторых случаях критична для предсказания.

Декодером это называется несколько некорректно, потому что речь по большому счёту идёт про энкодер трансформера (помните, BERT — это чисто encoder часть полного трансформера), декодера в его хитрым маскированным вниманием тут нет.

Авторы говорят, что через EMD можно добавлять в модель другую полезную информацию, но это тема на будущее (когда Гугл обгонит на SuperGLUE, видимо).

Правда, в статье описана адаптация DeBERTa к авторегрессионной генерации, где эта хитрая треугольная маска появляется.

Также в работе применяют virtual adversarial training алгоритм под названием Scale-invariant-Fine-Tuning (SiFT), который создаёт adversarial examples путём изменения эмбеддингов слов (причём нормализованных эмбеддингов, типа так лучше), а модель должна на них выдавать распределение как на оригинальных данных. Внимательное изучение SiFT тоже оставили на будущее.

Экспериментальная часть богата.

Сравнивают large модели BERT, RoBERTa, XLNet, ELECTRA и кое-где ALBERT и Megatron. DeBERTa рулит. И этот результат получают при обучении примерно на половине данных по сравнению с RoBERTa и XLNet. Также DeBERTa обходит по качеству Megatron-1.3B, который в три раза толще.

DeBERTa-base также побеждает RoBERTa/XLNet-base.
В режиме авторегрессионной генерации по perplexity на Wikitext-103 лучше GPT-2 и Transformer-XL (не понял только, каких размеров).

По ablations показали, что более-менее все добавления в модель нужны (EMD, content-to-position, position-to-content).

DeBERTa-large обучалась на 6 DGX-2 с 96 V100. Одна модель на 1М шагов обучается 20 дней. Забудьте, если вы не гугл.

Обучили также тяжёлую DeBERTa на 1.5B параметров, у неё в SuperGLUE общий скор 89.9 (у человека 89.8). У ансамбля DeBERT те самые лидерские 90.3. Гугловая T5 вроде как в версии 11B там (но ждём также их могучий Switch Transformer).

Такие вот дела. Microsoft вроде как собирается предоставлять доступ к модели через API в рамках их моделей Turing. Эта называется Turing NLRv4.
Обзор интересной статьи про применение contrastive learning для биологии