Градиент обреченный
7.98K subscribers
834 photos
20 videos
8 files
454 links
Download Telegram
#fun #cv #gen

Нейроботы

Всем пятничных роботов в ленту. Почти все на позитиве, грустит только один.

Нарисовано при помощи Disco Diffusion, ссылка на Colab ниже (это бесплатная среда для запуска кода на Python).

Colab
🔥10
#useful #nlp #translation

Скрипты для запуска NLLB, модели машинного перевода на 200+ языков. Предварительно надо скачать dense чекпоинт отсюда.

https://github.com/pluiez/NLLB-inference
👍3
#wip

Журавль в руках

Запустил NLLB локально (меньшую модель, на 600M параметров), попереводил с различных редких языков на русский.

Оно действительно работает, текст получается складный (метрики качества можно посмотреть в статье). Так что теперь у нас есть качественная модель машинного перевода для любых пар из 200+ языков.

Попробуйте сами, понадобится:

1️⃣ установить несколько зависимостей отсюда (apex и megatron для инференса не нужны)

2️⃣ скачать чекпоинт (600M или больше)

3️⃣ воспользоваться скриптом из поста выше

P.S. Пишите, если что-то не заработает
🔥7👍6
Forwarded from Kali Novskaya (Tatiana Shavrina)
Сделала для вас подборку литературы:
С чего начать в NLP

Пункт номер 0.
Учебник со всеми классическими методами от Daniel Jurafsky ссылка
Бессмертная классика, и постоянно выходят обновления.

Пункт номер 1. Стенфордский видеокурс "CS224n: Natural Language Processing with Deep Learning" - есть материалы за прошлые годы, смотрите самый последний (зима 2021) ссылка

Пункт номер 2 и далее. Практика-практика. Делайте своих ботов, классификаторы, микросервисные архитектуры с модельками. Много туториалов на Medium, плюс новые модели на https://paperswithcode.com/sota
◽️Много полезного собрано в учебных материалах DeepPavlov - курс уже прошел, но материалы доступны на Github - тут есть и план обучения, и идеи проектов. Во многом пересекается по материалам со стенфордским курсом.

Дополнительно:
◽️Учебник по NLP от Jacob Eisenstein - 2018 года, но большинство глав up-to-date ссылка

◽️Учебник "A Primer on Neural Network Models for Natural Language Processing" (2015 года, тоже староват, но все основные подходы вам все еще понадобятся) ссылка

На русском:
◽️Бесплатный курс Павла Бралавского "Введение в обработку естественного языка" на stepic: ссылка
Мне он показался сложноватым для совсем новичков, но зато у вас сразу будет несколько Jupyter-проектов на выходе.

◽️Виктор Захаров, учебник "КОРПУСНАЯ ЛИНГВИСТИКА" ссылка
Отличный учебник, написанный для лингвистов. Читать легко и приятно, поймете все про выборки для обучения.

Почти для всех курсов и учебников пререквизиты одинаковые: Python, матстат, основы ML
👍15🔥1
#cv #news #gen

🚀 Сегодня Midjourney (сеть для генерации картинок по тексту) пускает всех попользоваться своей бетой!

Поэтому быстро надеваем штаны и идем к ним в облако.

P.S. генерация идет в discord, зарегайтесь там сначала, потом получите приглашение по ссылке.

Ссылка
🔥6
#articles

1000 языков от Google

Горячая статья от Google про машинный перевод на тысячу языков. Описывают свои наработки по этой теме. Ничем пока что не делятся, но есть любопытные наблюдения.

• Period trick. Во время тестирования модели обнаружили, что качество для многих пар языков деградирует, если в input не оканчивается точкой. А иногда из-за этого даже переводит не на тот язык.
• Так же как и в статье от Meta обращают внимание на то, что есть много языков с несколькими видами письменности. Сделали отдельные модели по "переводу" (транслитерации) одного письма в другое.
• Поисследовали как ведет себя модель, если заменить буквы их unicode-близнецами (например "I" и палочка).

🖖 Пожелаем удачи исследователям и будем следить за новостями!

Статья
👍9
#nlp #big #news

Что надо знать про Bloom 🌸

〰️ Что это?

Большая языковая модель (LLM) для генерации текста, которую в течение года готовил коллективный разум (более 1000 человек из 70-ти стран) при помощи суперкомпьютера Jean Zay. Пользовались грантом на €3M.

〰️ Зачем?

Большие корпорации тратят такие средства постоянно, но в открытый доступ модели выкладывают редко. Эта модель — открытая. По размеру эквивалентна GPT-3 175B, но на 1 миллиард параметров больше 😁.

〰️ В чем особенность?

Модель мультиязычная (59 языков, 13 из которых — языки программирования, список будет ниже). Большой упор на редкие африканские языки.

Русского нет, если вбросить промпт [To say "I love you" in Russian, you would say], то будет транслит:

To say "I love you" in Russian, you would say "ya lyublyu" or "ya lyubit." These can be used when speaking.

〰️ Почему новость сейчас?

А потому что эту махину дообучили и заливают на huggingface на радость всем желающим (есть модели разного размера, какие-то финальные, какие-то в процессе) 👉

Huggingface | Логи обучения | Про датасет
🔥9👍6
#theory

🎲 Broadcasting

При работе с тензорами в торче (не путать с мат. тензорами) важно знать про то, как работает broadcasting. Это когда вы проделываете операции с тензорами разной размерности, например, умножаете друг на друга.

Если broadcasting происходит, то операция считается без дополнительного выделения памяти, что обычно ведет к ускорению.

Чтобы это случилось должны выполняться три условия (кроме того, что в обоих тензорах должна быть хотя бы одна размерность). Начиная с последней размерности (смотрим картинку), они должны:

1️⃣ Либо совпадать

2️⃣ Либо одна из них должна быть единичкой

3️⃣ Либо одной из них не должно быть

👉 Чтобы потренироваться с этим, а заодно решить несколько задачек вот вам классный репозиторий Tensor-Puzzles. Прилагается Colab.

А для истинных копателей у автора есть еще и GPU-Puzzles.
👍8🔥21
#linguistics

🔠 В свободное время люблю делать разные интересные штуки, связанные с лингвистикой.

За N часов составил и нарисовал диаграмму Венна общих букв среди славянских языков с латинской письменностью. Очень долго вписывал кашубский.
🔥11👍3
#pr

〰️ Дал небольшое интервью на работе по поводу перехода из бэкенд-разработки в машинное обучение.

Так как переходил я из программирования в программирование, то эпичных историй не ждите 😁.

Зато есть пара мыслей про то, что мне помогло — pet-проекты, заметки и практика. 👉
#fun

Когда поправил README в общественном проекте на github.
😁13🐳3
#lingtrain #books

Нарисовал тут две обложки для книг (сделаю русско-английские версии).

1️⃣ gray street of the 80s city, yellow sky as a background, hyper realistic, detailed, 4k

2️⃣ scene from master and margarita by bulgakov, illustration with black cat, red color
🔥13