Bayesian Noise

Без лишних слов, нагляднейшее объяснение таких не простых идей NLP, как word2vec, attention, BERT, ELMo. Если вы хотели разобраться, но читать слишком математические статьи вам не нравится, посмотрите ссылки ниже. Авторские качественные визуализации делают материал доступным.

The Illustrated Word2vec - https://jalammar.github.io/illustrated-word2vec/

The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning) - https://jalammar.github.io/illustrated-bert/

The Illustrated Transformer - https://jalammar.github.io/illustrated-transformer/

Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention) - https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/

#learn #nlp #text #word2vec #bert #attention #text

jalammar.github.io

The Illustrated Word2vec

Discussions:
Hacker News (347 points, 37 comments), Reddit r/MachineLearning (151 points, 19 comments)

Translations: Chinese (Simplified), French, Korean, Portuguese, Russian

“There is in all things a pattern that is part of our universe.…

119 views11:26

Bayesian Noise

BERT (Pre-training of Deep Bidirectional Transformers) одна из мощнейших языковых моделей в настоящее время, но достаточно быстр её обошли по бенчмаркам разные улучшенные модели XLNet, KERMIT, ERNIE.

Чуваки поняли что обычный BERT сильно недоучен и добавили несколько простых лучений, назвали это RoBERTa (Robustly optimized BERT approach) и опять получили SOTA результаты по основным бенчмаркам.

По ссылке краткое резюме и ссылка на статью
https://blog.inten.to/papers-roberta-a-robustly-optimized-bert-pretraining-approach-7449bc5423e7

#nlp #sota #bert

Medium

[papers] RoBERTa: A Robustly Optimized BERT Pretraining Approach

Hardly a month comes without a new language model announces to surpass the good old (oh my god, it’s still 9-months old) BERT in one…

39 views14:02

Bayesian Noise

Недавно вышла интересная работа по разъяснению, как BERT учится понимать язык. Современные трансформеры учатся понимать естественный язык, часто это "понимание" отличается от наших ожиданий. Как бы то не было, современные модели не умеют думать и учатся исключительно на основе подготовленных данных, иногда они улавливают странные зависимости. Бывает сложно разобраться, что же на самом деле понимает такая модель и почему она делает ошибки в совершенно неожиданных местах. Для разной тонкой настройки моделей иногда очень полезно приоткрыть чёрный ящик. http://exbert.net/ Можно запустить live server демо, и поиграться с разными фразами.

Кстати, о трансформерах, очень исчерпывающее руководство, о том, как они устроены, если хотите разобраться, то посмотрите статью http://peterbloem.nl/blog/transformers — реализация с нуля на pytorch.

Ещё одна статья, больше про интуитивное понимание, без технических деталей, но у вас останется некоторое понимание https://www.analyticsvidhya.com/blog/2019/06/understanding-transformers-nlp-state-of-the-art-models/?utm_source=blog&utm_medium=complete-list-important-frameworks-nlp

В дополнение, ещё одна ссылка, о том, как Google начал использовать BERT в продакшене https://www.blog.google/products/search/search-language-understanding-bert , статья не содержит технических деталей. Интересно, что от исследований до реального использования в поиске ушло около года.

#nlp #bert

Analytics Vidhya

How do Transformers Work in NLP? A Guide to the Latest State-of-the-Art Models

What is a Transformers in NLP? Transformers are one of the most interesting concepts in NLP. A guide to state-of-the-art-model.

106 views18:36

About

Blog

Apps

Platform