gonzo-обзоры ML статей – Telegram

gonzo-обзоры ML статей

24.3K subscribers

2.94K photos

2 videos

3 files

1.45K links

Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Download Telegram

About

Blog

Apps

Platform

gonzo-обзоры ML статей

24.3K subscribers

gonzo-обзоры ML статей

Всем, кто оставил свои координаты в этом опросе, мы разослали приглашение в дискорд, где дальше собираемся вести движуху по разбору статей вокруг AGI.

Если вам по какой-то причине не пришла ссылка в почту, дайте знать.

4.32K viewsedited 10:01

gonzo-обзоры ML статей

Forwarded from gonzo-обзоры ML статей

И ещё одно объявление.

Мы планируем запустить онлайн семинар/журнальный клуб по разбору статей вокруг общего искусственного интеллекта (AGI). Если вам интересно участвовать в этой активности в качестве слушателя или докладчика (или ещё как), ответьте, пожалуйта, на вопросы анкеты:

https://forms.gle/6dx54vmruiSVAv9A8

AGI Seminar / Journal Club

Мы планируем запустить онлайн семинар/журнальный клуб по разбору статей вокруг общего искусственного интеллекта (AGI). Если вам интересно участвовать в этой активности в качестве слушателя или докладчика (или ещё как), ответьте, пожалуйта, на вопросы анкеты…

5.06K views10:01

gonzo-обзоры ML статей

Артефакт от нашего вчерашнего первого журнального клуба по статьям вокруг AGI.

https://docs.google.com/presentation/d/1Ys8Tjn7rEIjd36ZfYezcA95A8mL31V7Xgu89RtIRjxM/edit?usp=sharing

Следующий журнальный клуб планируем в субботу 5 декабря в 18:00.

Если вам тоже интересно участвовать в этой активности в качестве слушателя или докладчика (или ещё как), ответьте, пожалуйта, на вопросы анкеты, и мы пригласим вас в наш дискорд:

https://forms.gle/6dx54vmruiSVAv9A8

Seminar #1. AI-GAs

AI-GAs: AI-generating algorithms, an alternate paradigm for producing general artificial intelligence https://arxiv.org/abs/1905.10985 Gonzo AGI Journal Club, 28/11/2020

5.94K views10:38

gonzo-обзоры ML статей

Если кому интересно железо, я написал очередную огромную статью с разбором, что сейчас есть из специализированных процессоров для DL:

https://blog.inten.to/hardware-for-deep-learning-part-4-asic-96a542fe6a81

Комментарии, замечания и предложения приветствуются.

Ну и там, лайки, шеры, алишеры :)

Hardware for Deep Learning. Part 4: ASIC

This is a part about ASICs from the “Hardware for Deep Learning” series. The content of the series is here.

5.33K views14:58

gonzo-обзоры ML статей

kōan: A Corrected CBOW Implementation
Ozan İrsoy, Adrian Benton, Karl Stratos
Статья: https://arxiv.org/abs/2012.15332
Код: https://github.com/bloomberg/koan

Интересная история в мире NLP из серии “наше представление о мироздании было неверным”.

Классический word2vec имеет два варианта обучения эмбеддингов: Continuous bag-of-words (CBOW, здесь по контексту предсказывается центральное слово) и Skip-gram (SG, здесь наоборот по центральному слову предсказываются слова контекста). Первый быстрее, потому что негативный сэмплинг требуется только для центрального слова, а не для каждого слова контекста. Но общее убеждение было, что SG даёт лучшее качество.

И вот ребята из Блумберга заявляют, что это не обосновано какими-то теоретическими различиями, а дело в референсных имплементациях word2vec (родной от Томаса Миколова и также часто используемой из Gensim), где много лет была бага. И вроде как в генсимовских issues на гитхабе на это несколько раз указывали.

Копание показало, что градиент для входных (source) эмбеддингов считается неверно, он не делится на размер окна контекста (то есть, считай, избыточно умножается на размер этого окна). Это было бы ничего, если бы среди обучаемых весов были только входные эмбеддинги, тогда максимум бы пришлось поправить learning rate. Но там же есть и выходные (target), которые масштабировать не надо, и получается что градиент для общего вектора весов в итоге указывает “не совсем туда”.

Авторы собрали исправленный вариант CBOW и показали, что он даёт сопоставимое с SG качество. Заодно ещё сделали оптимизированный негативный сэмплинг и выложили реализацию на С++17.

На генсимовской реализации есть просадка по качеству у CBOW по сравнению с SG, а на новой нету. Но правда есть пара противоречивых результатов, на SST-2 и QNLI из GLUE генсимовский CBOW таки почему-то прям существенно обогнал по качеству всё остальное. У меня нет объяснения такому результату, это какой-то странный подземный стук, который, мне кажется, говорит, что вопрос ещё не до конца закрыт. Надо копать дальше!

В любом случае кейс интересный. Проверяйте надёжность основ и не доверяйте безоглядно тому, что “общепринято”.

GitHub - bloomberg/koan: A word2vec negative sampling implementation with correct CBOW update.

A word2vec negative sampling implementation with correct CBOW update. - bloomberg/koan

4.2K views18:36

gonzo-обзоры ML статей

2.93K views18:38

gonzo-обзоры ML статей

2.95K views18:38

gonzo-обзоры ML статей

2.84K views18:39

gonzo-обзоры ML статей

2.91K views18:40

gonzo-обзоры ML статей

Ускоренный сэмплинг

2.94K views18:41

gonzo-обзоры ML статей

(для тех кто забыл что такое CBOW/SG, картинка из https://arxiv.org/abs/1301.3781)

3.04K views18:43

gonzo-обзоры ML статей

DeBERTa: Decoding-enhanced BERT with Disentangled Attention
Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen
Статья: https://arxiv.org/abs/2006.03654
Код: https://github.com/microsoft/DeBERTa
Модель в Transformers: https://huggingface.co/transformers/model_doc/deberta.html
Пост: https://www.microsoft.com/en-us/research/blog/microsoft-deberta-surpasses-human-performance-on-the-superglue-benchmark/

В зоопарке с бертами громкое пополнение. Microsoft захватил лидерство в SuperGLUE (https://super.gluebenchmark.com/leaderboard) с моделью DeBERTa (итоговый скор 90.3), попутно превзойдя human baseline (скор 89.8) на этом бенчмарке. В затылок лидеру дышит гугловая T5 + Meena, также превосходящая человека (90.2). Гугл пока про этот свой прорыв отмалчивается.

Что за зверь эта DeBERTa?

По большому счёту DeBERTa — это RoBERTa с двумя усовершенствованиями.

1) Разделённый механизм внимания (disentangled attention), в котором каждый токен кодируется двумя векторами: вектор контента и вектор позиции (относительной), для работы с которыми заведены отдельные матрицы.

В оригинальном трансформере, как вы помните, вектор был один и представлял собой сумму контентного и позиционного эмбеддинга. В оригинальной работе были абсолютные позиционные эмбеддинги, считавшиеся через синусы, в последующих работах также были относительные, но важно, что они арифметически суммировались с контентными в один итоговый вектор эмбеддинга (H), который дальше и прилетал на вход каждого слоя self-attention.

Здесь на вход пролетает пара {H, P}, где H — это по-прежнему контентные эмбеддинги (на входе посчитанные для BPE-токенов, а далее — выходы с предыдущих слоёв self-attention), а P — относительные позиционные эмбеддинги, кодирующие связь токена на позиции i с токеном на позиции j, которые считаются из относительного расстояния между i и j.

Вес внимания между двумя такими {H, P} состоял бы из четырёх компонент: content-to-content (как в оригинале), content-to-position, position-to-content и position-to-position. От последнего отказываются, потому что он вроде как не добавляет новой информации при использовании относительных позиций. В итоге получается, что к традицинным контентным K,Q,V добавляются позиционные Q_r и K_r и соответствующие им матрицы проекций.

Ну и нормализуют теперь не на корень из d, а на корень из 3d.

2) Enhanced mask decoder (EMD), где перед финальным софтмаксом, когда модель должна уже декодировать замаскированные токены при обучении с MLM (Masked Language Model), к контекстным эмбеддингам добавляются _абсолютные_ позиционные (важно, в механизме внимания были _относительные_ позиционные эмбеддинги). Потому что, по мнению авторов, абсолютная позиция слова в некоторых случаях критична для предсказания.

Декодером это называется несколько некорректно, потому что речь по большому счёту идёт про энкодер трансформера (помните, BERT — это чисто encoder часть полного трансформера), декодера в его хитрым маскированным вниманием тут нет.

Авторы говорят, что через EMD можно добавлять в модель другую полезную информацию, но это тема на будущее (когда Гугл обгонит на SuperGLUE, видимо).

Правда, в статье описана адаптация DeBERTa к авторегрессионной генерации, где эта хитрая треугольная маска появляется.

Также в работе применяют virtual adversarial training алгоритм под названием Scale-invariant-Fine-Tuning (SiFT), который создаёт adversarial examples путём изменения эмбеддингов слов (причём нормализованных эмбеддингов, типа так лучше), а модель должна на них выдавать распределение как на оригинальных данных. Внимательное изучение SiFT тоже оставили на будущее.

Экспериментальная часть богата.

Сравнивают large модели BERT, RoBERTa, XLNet, ELECTRA и кое-где ALBERT и Megatron. DeBERTa рулит. И этот результат получают при обучении примерно на половине данных по сравнению с RoBERTa и XLNet. Также DeBERTa обходит по качеству Megatron-1.3B, который в три раза толще.

DeBERTa-base также побеждает RoBERTa/XLNet-base.

GitHub - microsoft/DeBERTa: The implementation of DeBERTa

The implementation of DeBERTa. Contribute to microsoft/DeBERTa development by creating an account on GitHub.

2.99K views19:41

gonzo-обзоры ML статей

В режиме авторегрессионной генерации по perplexity на Wikitext-103 лучше GPT-2 и Transformer-XL (не понял только, каких размеров).

По ablations показали, что более-менее все добавления в модель нужны (EMD, content-to-position, position-to-content).

DeBERTa-large обучалась на 6 DGX-2 с 96 V100. Одна модель на 1М шагов обучается 20 дней. Забудьте, если вы не гугл.

Обучили также тяжёлую DeBERTa на 1.5B параметров, у неё в SuperGLUE общий скор 89.9 (у человека 89.8). У ансамбля DeBERT те самые лидерские 90.3. Гугловая T5 вроде как в версии 11B там (но ждём также их могучий Switch Transformer).

Такие вот дела. Microsoft вроде как собирается предоставлять доступ к модели через API в рамках их моделей Turing. Эта называется Turing NLRv4.

2.36K viewsedited 19:41

gonzo-обзоры ML статей

2.29K views19:43

gonzo-обзоры ML статей

2.27K views19:45

gonzo-обзоры ML статей

2.26K views19:45

gonzo-обзоры ML статей

2.37K views19:46

gonzo-обзоры ML статей

2.41K views19:46

gonzo-обзоры ML статей

2.41K views19:47

gonzo-обзоры ML статей

2.46K views19:48

gonzo-обзоры ML статей

Обзор интересной статьи про применение contrastive learning для биологии

2.34K views16:47