Towards NLP
319 members
6 photos
9 files
92 links
NLP: все n-граммы про анализ текстов.
По всем дополнительным вопросам: @dementyeva_ds
Download Telegram
to view and join the conversation
Language Interpretability Tool

Мир машинного обучения все увереннее шагает в сторону интерпретируемости. Поэтому инструмент для визуализации работы NLP моделей сейчас может быть очень кстати:

https://github.com/pair-code/lit

Что можно поделать:
- можно выявить ошибки и посмотреть причины, почему модель ошибается;
- построить разные метрики;
- сравненить нескольких моделей;
- посмотреть attention и связь с другими слоями;
- работает и для TensorFlow, и для PyTorch.
ALPS

Летом пора потихоньку строить планы на зиму, поэтому сегодня будет рекомендация на зимнюю школу Advanced Language Processing Winter School, которая пройдет в январе 2021. Здесь будет все про NLP. Дедлайн подачи заявки 6 сентября, еще можно успеть. Надо иметь CV, cover letter с мотивацией участия и, вдобавок, еще небольшое сопроводительное письмо.

Ах, да, это еще все в небольшой деревушке в Альпах.

http://lig-alps.imag.fr/
Multilingual NLP

Сейчас время начинать (или вспомнить, что забросили) новые учебные курсы. И, если честно, сейчас онлайн курсов невероятное количество и по классическому ML, и по deeplearning, и по NLP. Так, fast.ai перезапустили свой курс по глубокому обучению и, вдобавок, еще и книгу выпустили.

Но меня, если честно, из всего этого изобилия привлек новый курс под названием Multilingual Natural Language Processing. Курс начнется 1 сентября. Здесь самый разнообразный спектр тем — и переходы между простарнствами языков, перевод, разбор фонетической стороны языка. Поэтому, если вы уже устали от базы и классики, стоит обратить внимание.
AI Meetup про технологии NLP

В Иннополисе уже на протяжении нескольких лет проходят семинары и встречи, посвященные AI. Хотя я могу лично посоветовать и сам город для посещения, в этот четверг вы можете посетить онлайн Innopolis AI meetup, тем более, что речь будет идти об NLP.

Что ожидается:
- NeoML, Станислав Ангелюк. Этим летом ABBYY выкатила кросс-платформенную библиотеку, которая может вам помочь и в компьютерном зрении, и в обработке естественного языка. Будет рассказ о том, зачем все это было нужно и как теперь NeoML можно использовать.
- Сокращение длительности чатов техподдержкии, Константин Фролов, выпускник Иннополиса.
- Deeppavlov.ai, Фёдор Игнатов. Будет рассказ про применение библиотеки для создания чат-ботов, а также расскрыта архитектура решения, которая позволила команде занять 3 место на Alexa Prize Socialbot Grand Challenge 3 от Amazon.

Также будут присутствовать эксперты:
- Михаил Бурцев, руководитель проекта в Deeppavlov.ai;
- Александр Мазалов, основатель MutuAlies и mITy.law;
- Влад Виноградов, со-основатель и руководитель направления CV в EORA Data Lab.

Участие бесплатное, все будет онлайн, надо лишь зарегистрироваться на странице митапа.
SMILES NLP

Лекция Kyunghyun Cho (крутого ученого, который принимал непосредственное участие в создании ныне популярных в NLP sequence моделей) о самом главном в современном NLP за 3 часа:
https://youtu.be/xJHSZNy4Kp8
100 Must-Read NLP papers

Название говорит само за себя: 100 статей, которые, по мнению автора, стоит прочитать, чтобы понять разные области и основные инструменты, модели NLP.

https://github.com/mhagiwara/100-nlp-papers

Кстати, интересно, что сюда стоит ещё добавить. Лично я сейчас связана с задачами fact-checking, это достаточно интересная и полезная задача, но что-то про неё редко вспоминают и совсем обошли стороной в этом списке.
Hopfield networks

Attention, Seq2seq, GPT-2, GPT-3, BERT...

Wait, it's all Hopfield networks?
Always has been.

https://arxiv.org/abs/2008.02217
DataFest 2020

Традиционный всеми любимый фест в нетрадиционную пору - на этих выходных.

Можно смотреть онлайн трансляцию: https://youtu.be/J-boEj53LZk

Можно зарегестрироваться и получить доступ ко всем трекам (а их достаточно много): https://ods.ai/events/datafest2020/join

Spoiler: Industry in NLP трек будет завтра в 1:00 PM, будем ждать. И, неожиданно, много материала на английском.
PhD Skoltech Annual Review

Пока на канале было небольшое затишье, так как последние дни были в основном посвящены мыслям и подготовке к годовому отчету по аспирантуре. Это также был прекрасный повод поразмыслить, чему же удалось научиться за год, а также, что удалось осознать про науку и свое позиционирование в ней. Ниже я приведу список личных выводов за год, заодно, если будут вопросы, протестируем новую функцию телеграма с комментариями к постам.

1. Аспирантура - это прекрасный опыт. Даже если вы хотите туда пойти чисто ради строчки в резюме. Даже если вы хотите заниматься потом бизнесом и индустриальными проектами (об этом дальше). Даже если вы придете на некоторое время и не закончите. Опыт созерцания и пропускания через себя научного знания всегда будет полезен в жизни. Да, это можно получить и в магистратуре, при особо удачном раскладе, даже в бакалавриате, но аспирантура создает для приобретения научного мышления более концентрированную среду.

2. Писать научные статьи - это не так уж сложно. Просто, было бы о чем писать :)

3. Наука и предпринимательство очень похожи. В обоих случаях у вас есть идея, которую надо "выгодно продать" - получить инвестиции, получить грант, получить принятую статью на конференцию - проверить гипотезу, реализовать прототип. Способы реализаций этих пунктов для обоих случаев немного разные, но это дело техники. И, кстати, в самой науке есть и инвестиции, и патенты, и, собственно, гранты.

4. В продолжение предыдущего пункта: ошибаться - это нормально. Нормально, что не получились нужные результаты по экспериментам. Нормально, что гипотеза не подтвердилась и надо искать новую идею. Нормально получить отказ по статье. Ненормально - сдаться. (и, да, это можно повторять себе хоть каждый день, но все равно работает так себе).

5. И, наверное, самый сильный месседж - наука не возможна без любви. Без любви к жизни, к окружающей среде, к людям, близким и себе самому. Делать науку ради науки, AI ради AI, автоматизацию ради автоматизации, ради поднятия инвестиций можно. Но ради чего? Поэтому здесь мне хотелось бы пожелать всем создавать технологии ради реальной помощи и реального упрощения жизни, а не просто потому что мы можем. Мы должны бороться со злом, а не примкнуть к нему.

Если у кого-то есть вопросы по академическому пути развития, по поступлению (не важно на какую программу и какой университет), по NLP в целом - welcome to discuss!
AIST-2020

Ежегодная конфереция AIST-2020 (Analysis of Images, Social Networks and Texts), всеми любимая в российских NLP- и CV-тусовках, состоится в этом году 15-16 октября онлайн. Участие абсолютно бесплатное! Регистрация тут.

АИСТ – это конфереция, на которой исследователи делятся последними разработками, а представители из индустрии рассказывают о том, как Data Science работает в приложениях. Прекрасный повод для обмена мнениями, поиска новых идей и сотрудничества.

На сайте уже доступна предварительная программа: https://aistconf.org/program/program/

Также, будут приглашенные докладчики: Marcello Pelillo (Ca’ Foscari University of Venice), Santo Fortunato (Indiana University), Miguel Couceiro (LORIA), Leonard Kwuida (Bern University of Applied Sciences)
Carbon-efficient NLP

Из разряда интересных тем.

Сейчас многие пытаются ужать BERT и прочие модели-трансформеры, чтобы быстрее проходило обучение, чтобы модель меньше весила и её можно было вмещать на мобильные телефоны.

Другой стороной вопроса долгого обучения массивных моделей является потребление электроэнергии и, соответсвующее, загрязнение окружающей среды. Еще ожидается, что модели на инференсе могут тратить даже больше энергии, чем во время обучения. В этой статье даже есть сравнение стоимости обучения модели с общим потреблением углекислого газа за человеческую жизнь (и еще немного формальных вычислений). Более популистический разбор темы можно почитать здесь.

В общем, прикольный вопрос на подумать и поресерчить
AIST-2020 live right now

Track A: https://youtu.be/wE4cZbP2t1I
Track B: https://youtu.be/Cb9Z7SYkOZ8

Join! NLP session right now at Track A.
AIST 2020 live. Day 2

Track A
https://youtu.be/3CvdJtS-FyQ

Track B
https://youtu.be/5iiO0Ah8x8c

You are very welcome to join!
RUGPT

Я думаю, что все уже видели новости про соревнование Сбера с использованием (барабанная дробь) ruGPT. Уже прошло и много споров, что же это в конце концов такое - gpt-3 или все-таки gpt-2. Также, еще шлифовались примеры для запуска и правились баги. В итоге, спустя неделю собираю не только громкие слова, но и немного полезной практической инофрмации.

Итак, что же по моделям (со слов соорганизатора Татьяны Шавриной):
GPT-3 Large - 760 млн параметров, контекст 2048;
GPT-3 Medium - 350 млн параметров, контекст 2048;
GPT-2 Large - 760 млн параметров, контекст 1024 - очень отлаженная и стабильная модель.
Все-таки, это не просто gpt-2 — не смотря на то, что параметров все-таки меньше, чем в оригинальной модели gpt-3 (175 млрд, на минуточку), здесь улучшение состоит в расширении контекста (с 1024 до 2048). Этим был и обоснован инкримент в цифре.

Что по запуску:
- есть пример на colab;
- и, что также очень удобно, модели были интегрированы в 🤗:
- https://huggingface.co/sberbank-ai/rugpt3large_based_on_gpt2;
- https://huggingface.co/sberbank-ai/rugpt3medium_based_on_gpt2;
- https://huggingface.co/sberbank-ai/rugpt2large;

Из "на почитать" была статья на хабре. Также уже даже кто-то успел поиграться и выложить первые результаты.

Что из "но": пока что не очень успешным является запуск на колабе для переобучения, так как, конечно же, идет переполнение по памяти. Поэтому, для такого нужно иметь какую-то свою машину.

Фух, вроде все. Но а так, уже создали более-менее комфортные условия для ознакомления, так что можно обучать этот ruGPT для своих самых безумных идей (или безумных в рамках возможностей модели).
November 2020 News Letter

Очередные новости от Себастьяна Рудера — лучшее отображение тем, с которыми лично я сталкиваюсь последнее время:
- мультиязычность в NLP: что нужно сделать, чтобы модели действительно проецировали разные языки в единое векторное пространство, чтобы, например, фразы "I love Moscow" и "Я люблю Москву" были для модели идентичными. В частности, что можно сделать с BERTом описано в этой статье.
- определение токсичности: это очень популярная сейчас тема, как детектировать и как бороться с токсичной речью в соц сетях. Есть соревнование The Hateful Memes Challenge, которое объединяет в себе и текст, и картинки, и пассивную агрессию. В статье Рудера можно почитать, какие в этой области есть продвижение и будущие задачи.
- аугментация текстов. Вообще, недавно вышла хорошая обзорная статья Дьяконова на эту тему. У Рудера тоже есть ссылки на обзоры и на готовые решения для генерации adversarial examples.

И еще много интересного материала здесь.
Multilingual NLP v2.0

Если вас, как и меня, не отпускает тема мультиязычности, то Katerina Vylomova посоветовала еще несколько полезных ресурсов:

19 ноября в рамках EMNLP пройдет SIGTYP вокршоп, посвященный мультиязычности и типологии. Большинство докладов будет онлайн, так что можно еще присоединиться!

Также команда SIGTYP ведет блог, который тоже посвящен теме мультиязычности в NLP. Там уже есть список избранных статей, рекомендации по ресурсам и курсам. Как по мне, это очень полезно, надеюсь, что блог так и дальше будет развиваться.
mT5

Еще дальше продолжая тему мультиязычности. Месяц назад появилась статья про новую модель mT5 (на основе, собственно, T5) от Google Research:
https://arxiv.org/pdf/2010.11934.pdf

Она обучена на 101 языке и побила многие SOTA результаты (типичные задачи sentence-pair classification, structured prediction и question answering). А также она появилась в 🤗 и можно теперь использовать и для конкретных задач, и как слой векторных представлений:
https://huggingface.co/models?search=mt5
High Performance NLP Tutorial

Презентация с EMNLP про вычислительные сложности в NLP:
http://gabrielilharco.com/publications/EMNLP_2020_Tutorial__High_Performance_NLP.pdf

Даже только по слайдам можно прекрасно понять материал — расписаны сложности самых популярных сейчас слоев и моделей, какое может быть соответствующее решение. Особенно круто выглядят слайды, где наглядно понятна алгоритмическая сложность слоя по типу attention. Презентация хоть и объемная, но в ней действительно много интересной информации.