Градиент обреченный
7.98K subscribers
834 photos
20 videos
8 files
454 links
Download Telegram
heinlein_door_en_ru.pdf
2.2 MB
#lingtrain #books #nlp #tools

📚 DIY книги

Научился делать вот такие параллельные книги из двух текстовых файлов.

Сначала идет процесс выравнивания при помощи модельки, которая оценивает близость предложений по смыслу. Затем разрешаются конфликты (количество предложений между оригиналом и переводом могут отличаться существенно).

Потом немного магии с генерацией PDF'а. Ну а обложку генерирую при помощи диффузионных моделей.

✔️ Весь код выложил, инструкцию написал. Так что не стесняйтесь, делайте книги, изучайте языки.

GitHub, Статья
🔥10👍4
This media is not supported in your browser
VIEW IN TELEGRAM
#cv #colab #gen

Нейросеть для скетчей

🌗 Интересный проект для тех, кто рисовать не умеет, но всегда хотел. Авторы не стали тренировать какую-нибудь сетку на скетчах, а сделали так:

1️⃣ Скетч определяется как набор N кривых Безье на белом фоне (это такие кривые с параметрами в виде точек и углов в них).
2️⃣ При помощи CLIP (сеть с общим латентным пространством для картинок и текста) получаем карту внимания и по ней ставим начальные точки кривых.
3️⃣ Есть растеризатор с обучаемыми параметрами, который рисует наш скетч.
4️⃣ На каждом шаге между картинкой из растеризатора и исхожным изображением считаем лосс CLIP'ом и корректируем параметры.
5️⃣ Получаем скетч.

Круто, что такой скетч на выходе получается в векторном формате (svg), можно поиграться с ним в иллюстраторе. Кроме того, можно менять количество линий.

👉 Попробуйте порисовать сами при помощи Colab'а.

Colab, GitHub, О проекте
🔥10
#news #big #models #nlp #translation

🍰 No language left behind

Meta
опубликовала веса моделей машинного перевода на 200+ языков!

- Старшая модель на 54,5 B параметров.
- Есть дистилляты на 1.3B и 600M, то есть простым смертным тоже получится запустить.
- Есть малоресурсные языки (из языков России заметил Башкирский. Чувашского и Якутского вроде нет).

Замечательно, что происходит такая демократизация моделей! Будем пробовать. 👍

GitHub, Демо
👍10
#useful #nlp #translation #article

Список всех языков, которые поддерживает NLLB 👆

Всего 204 штуки, причем 150 из них классифицированы как малоресурсные — для них нашлось менее 1 миллиона уникальных пар текстов, параллельных с каким-то другим языком.
👍3
#fun #cv #gen

Нейроботы

Всем пятничных роботов в ленту. Почти все на позитиве, грустит только один.

Нарисовано при помощи Disco Diffusion, ссылка на Colab ниже (это бесплатная среда для запуска кода на Python).

Colab
🔥10
#useful #nlp #translation

Скрипты для запуска NLLB, модели машинного перевода на 200+ языков. Предварительно надо скачать dense чекпоинт отсюда.

https://github.com/pluiez/NLLB-inference
👍3
#wip

Журавль в руках

Запустил NLLB локально (меньшую модель, на 600M параметров), попереводил с различных редких языков на русский.

Оно действительно работает, текст получается складный (метрики качества можно посмотреть в статье). Так что теперь у нас есть качественная модель машинного перевода для любых пар из 200+ языков.

Попробуйте сами, понадобится:

1️⃣ установить несколько зависимостей отсюда (apex и megatron для инференса не нужны)

2️⃣ скачать чекпоинт (600M или больше)

3️⃣ воспользоваться скриптом из поста выше

P.S. Пишите, если что-то не заработает
🔥7👍6
Forwarded from Kali Novskaya (Tatiana Shavrina)
Сделала для вас подборку литературы:
С чего начать в NLP

Пункт номер 0.
Учебник со всеми классическими методами от Daniel Jurafsky ссылка
Бессмертная классика, и постоянно выходят обновления.

Пункт номер 1. Стенфордский видеокурс "CS224n: Natural Language Processing with Deep Learning" - есть материалы за прошлые годы, смотрите самый последний (зима 2021) ссылка

Пункт номер 2 и далее. Практика-практика. Делайте своих ботов, классификаторы, микросервисные архитектуры с модельками. Много туториалов на Medium, плюс новые модели на https://paperswithcode.com/sota
◽️Много полезного собрано в учебных материалах DeepPavlov - курс уже прошел, но материалы доступны на Github - тут есть и план обучения, и идеи проектов. Во многом пересекается по материалам со стенфордским курсом.

Дополнительно:
◽️Учебник по NLP от Jacob Eisenstein - 2018 года, но большинство глав up-to-date ссылка

◽️Учебник "A Primer on Neural Network Models for Natural Language Processing" (2015 года, тоже староват, но все основные подходы вам все еще понадобятся) ссылка

На русском:
◽️Бесплатный курс Павла Бралавского "Введение в обработку естественного языка" на stepic: ссылка
Мне он показался сложноватым для совсем новичков, но зато у вас сразу будет несколько Jupyter-проектов на выходе.

◽️Виктор Захаров, учебник "КОРПУСНАЯ ЛИНГВИСТИКА" ссылка
Отличный учебник, написанный для лингвистов. Читать легко и приятно, поймете все про выборки для обучения.

Почти для всех курсов и учебников пререквизиты одинаковые: Python, матстат, основы ML
👍15🔥1
#cv #news #gen

🚀 Сегодня Midjourney (сеть для генерации картинок по тексту) пускает всех попользоваться своей бетой!

Поэтому быстро надеваем штаны и идем к ним в облако.

P.S. генерация идет в discord, зарегайтесь там сначала, потом получите приглашение по ссылке.

Ссылка
🔥6
#articles

1000 языков от Google

Горячая статья от Google про машинный перевод на тысячу языков. Описывают свои наработки по этой теме. Ничем пока что не делятся, но есть любопытные наблюдения.

• Period trick. Во время тестирования модели обнаружили, что качество для многих пар языков деградирует, если в input не оканчивается точкой. А иногда из-за этого даже переводит не на тот язык.
• Так же как и в статье от Meta обращают внимание на то, что есть много языков с несколькими видами письменности. Сделали отдельные модели по "переводу" (транслитерации) одного письма в другое.
• Поисследовали как ведет себя модель, если заменить буквы их unicode-близнецами (например "I" и палочка).

🖖 Пожелаем удачи исследователям и будем следить за новостями!

Статья
👍9
#nlp #big #news

Что надо знать про Bloom 🌸

〰️ Что это?

Большая языковая модель (LLM) для генерации текста, которую в течение года готовил коллективный разум (более 1000 человек из 70-ти стран) при помощи суперкомпьютера Jean Zay. Пользовались грантом на €3M.

〰️ Зачем?

Большие корпорации тратят такие средства постоянно, но в открытый доступ модели выкладывают редко. Эта модель — открытая. По размеру эквивалентна GPT-3 175B, но на 1 миллиард параметров больше 😁.

〰️ В чем особенность?

Модель мультиязычная (59 языков, 13 из которых — языки программирования, список будет ниже). Большой упор на редкие африканские языки.

Русского нет, если вбросить промпт [To say "I love you" in Russian, you would say], то будет транслит:

To say "I love you" in Russian, you would say "ya lyublyu" or "ya lyubit." These can be used when speaking.

〰️ Почему новость сейчас?

А потому что эту махину дообучили и заливают на huggingface на радость всем желающим (есть модели разного размера, какие-то финальные, какие-то в процессе) 👉

Huggingface | Логи обучения | Про датасет
🔥9👍6
#theory

🎲 Broadcasting

При работе с тензорами в торче (не путать с мат. тензорами) важно знать про то, как работает broadcasting. Это когда вы проделываете операции с тензорами разной размерности, например, умножаете друг на друга.

Если broadcasting происходит, то операция считается без дополнительного выделения памяти, что обычно ведет к ускорению.

Чтобы это случилось должны выполняться три условия (кроме того, что в обоих тензорах должна быть хотя бы одна размерность). Начиная с последней размерности (смотрим картинку), они должны:

1️⃣ Либо совпадать

2️⃣ Либо одна из них должна быть единичкой

3️⃣ Либо одной из них не должно быть

👉 Чтобы потренироваться с этим, а заодно решить несколько задачек вот вам классный репозиторий Tensor-Puzzles. Прилагается Colab.

А для истинных копателей у автора есть еще и GPU-Puzzles.
👍8🔥21