heinlein_door_en_ru.pdf
2.2 MB
#lingtrain #books #nlp #tools
📚 DIY книги
Научился делать вот такие параллельные книги из двух текстовых файлов.
Сначала идет процесс выравнивания при помощи модельки, которая оценивает близость предложений по смыслу. Затем разрешаются конфликты (количество предложений между оригиналом и переводом могут отличаться существенно).
Потом немного магии с генерацией PDF'а. Ну а обложку генерирую при помощи диффузионных моделей.
✔️ Весь код выложил, инструкцию написал. Так что не стесняйтесь, делайте книги, изучайте языки.
GitHub, Статья
📚 DIY книги
Научился делать вот такие параллельные книги из двух текстовых файлов.
Сначала идет процесс выравнивания при помощи модельки, которая оценивает близость предложений по смыслу. Затем разрешаются конфликты (количество предложений между оригиналом и переводом могут отличаться существенно).
Потом немного магии с генерацией PDF'а. Ну а обложку генерирую при помощи диффузионных моделей.
✔️ Весь код выложил, инструкцию написал. Так что не стесняйтесь, делайте книги, изучайте языки.
GitHub, Статья
🔥10👍4
This media is not supported in your browser
VIEW IN TELEGRAM
#cv #colab #gen
Нейросеть для скетчей
🌗 Интересный проект для тех, кто рисовать не умеет, но всегда хотел. Авторы не стали тренировать какую-нибудь сетку на скетчах, а сделали так:
1️⃣ Скетч определяется как набор N кривых Безье на белом фоне (это такие кривые с параметрами в виде точек и углов в них).
2️⃣ При помощи CLIP (сеть с общим латентным пространством для картинок и текста) получаем карту внимания и по ней ставим начальные точки кривых.
3️⃣ Есть растеризатор с обучаемыми параметрами, который рисует наш скетч.
4️⃣ На каждом шаге между картинкой из растеризатора и исхожным изображением считаем лосс CLIP'ом и корректируем параметры.
5️⃣ Получаем скетч.
Круто, что такой скетч на выходе получается в векторном формате (svg), можно поиграться с ним в иллюстраторе. Кроме того, можно менять количество линий.
👉 Попробуйте порисовать сами при помощи Colab'а.
Colab, GitHub, О проекте
Нейросеть для скетчей
🌗 Интересный проект для тех, кто рисовать не умеет, но всегда хотел. Авторы не стали тренировать какую-нибудь сетку на скетчах, а сделали так:
1️⃣ Скетч определяется как набор N кривых Безье на белом фоне (это такие кривые с параметрами в виде точек и углов в них).
2️⃣ При помощи CLIP (сеть с общим латентным пространством для картинок и текста) получаем карту внимания и по ней ставим начальные точки кривых.
3️⃣ Есть растеризатор с обучаемыми параметрами, который рисует наш скетч.
4️⃣ На каждом шаге между картинкой из растеризатора и исхожным изображением считаем лосс CLIP'ом и корректируем параметры.
5️⃣ Получаем скетч.
Круто, что такой скетч на выходе получается в векторном формате (svg), можно поиграться с ним в иллюстраторе. Кроме того, можно менять количество линий.
👉 Попробуйте порисовать сами при помощи Colab'а.
Colab, GitHub, О проекте
🔥10
#news #big #models #nlp #translation
🍰 No language left behind
Meta опубликовала веса моделей машинного перевода на 200+ языков!
- Старшая модель на 54,5 B параметров.
- Есть дистилляты на 1.3B и 600M, то есть простым смертным тоже получится запустить.
- Есть малоресурсные языки (из языков России заметил Башкирский. Чувашского и Якутского вроде нет).
Замечательно, что происходит такая демократизация моделей! Будем пробовать. 👍
GitHub, Демо
🍰 No language left behind
Meta опубликовала веса моделей машинного перевода на 200+ языков!
- Старшая модель на 54,5 B параметров.
- Есть дистилляты на 1.3B и 600M, то есть простым смертным тоже получится запустить.
- Есть малоресурсные языки (из языков России заметил Башкирский. Чувашского и Якутского вроде нет).
Замечательно, что происходит такая демократизация моделей! Будем пробовать. 👍
GitHub, Демо
GitHub
GitHub - facebookresearch/fairseq at nllb
Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - GitHub - facebookresearch/fairseq at nllb
👍10
#useful #nlp #translation #article
Список всех языков, которые поддерживает NLLB 👆
Всего 204 штуки, причем 150 из них классифицированы как малоресурсные — для них нашлось менее 1 миллиона уникальных пар текстов, параллельных с каким-то другим языком.
Список всех языков, которые поддерживает NLLB 👆
Всего 204 штуки, причем 150 из них классифицированы как малоресурсные — для них нашлось менее 1 миллиона уникальных пар текстов, параллельных с каким-то другим языком.
👍3
🔥10
#useful #nlp #translation
Скрипты для запуска NLLB, модели машинного перевода на 200+ языков. Предварительно надо скачать dense чекпоинт отсюда.
https://github.com/pluiez/NLLB-inference
Скрипты для запуска NLLB, модели машинного перевода на 200+ языков. Предварительно надо скачать dense чекпоинт отсюда.
https://github.com/pluiez/NLLB-inference
GitHub
GitHub - facebookresearch/fairseq at nllb
Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - GitHub - facebookresearch/fairseq at nllb
👍3
#wip
Журавль в руках
Запустил NLLB локально (меньшую модель, на 600M параметров), попереводил с различных редких языков на русский.
Оно действительно работает, текст получается складный (метрики качества можно посмотреть в статье). Так что теперь у нас есть качественная модель машинного перевода для любых пар из 200+ языков.
Попробуйте сами, понадобится:
1️⃣ установить несколько зависимостей отсюда (apex и megatron для инференса не нужны)
2️⃣ скачать чекпоинт (600M или больше)
3️⃣ воспользоваться скриптом из поста выше
P.S. Пишите, если что-то не заработает
Журавль в руках
Запустил NLLB локально (меньшую модель, на 600M параметров), попереводил с различных редких языков на русский.
Оно действительно работает, текст получается складный (метрики качества можно посмотреть в статье). Так что теперь у нас есть качественная модель машинного перевода для любых пар из 200+ языков.
Попробуйте сами, понадобится:
1️⃣ установить несколько зависимостей отсюда (apex и megatron для инференса не нужны)
2️⃣ скачать чекпоинт (600M или больше)
3️⃣ воспользоваться скриптом из поста выше
P.S. Пишите, если что-то не заработает
🔥7👍6
Forwarded from Kali Novskaya (Tatiana Shavrina)
Сделала для вас подборку литературы:
С чего начать в NLP
Пункт номер 0. Учебник со всеми классическими методами от Daniel Jurafsky ссылка
Бессмертная классика, и постоянно выходят обновления.
Пункт номер 1. Стенфордский видеокурс "CS224n: Natural Language Processing with Deep Learning" - есть материалы за прошлые годы, смотрите самый последний (зима 2021) ссылка
Пункт номер 2 и далее. Практика-практика. Делайте своих ботов, классификаторы, микросервисные архитектуры с модельками. Много туториалов на Medium, плюс новые модели на https://paperswithcode.com/sota
◽️Много полезного собрано в учебных материалах DeepPavlov - курс уже прошел, но материалы доступны на Github - тут есть и план обучения, и идеи проектов. Во многом пересекается по материалам со стенфордским курсом.
Дополнительно:
◽️Учебник по NLP от Jacob Eisenstein - 2018 года, но большинство глав up-to-date ссылка
◽️Учебник "A Primer on Neural Network Models for Natural Language Processing" (2015 года, тоже староват, но все основные подходы вам все еще понадобятся) ссылка
На русском:
◽️Бесплатный курс Павла Бралавского "Введение в обработку естественного языка" на stepic: ссылка
Мне он показался сложноватым для совсем новичков, но зато у вас сразу будет несколько Jupyter-проектов на выходе.
◽️Виктор Захаров, учебник "КОРПУСНАЯ ЛИНГВИСТИКА" ссылка
Отличный учебник, написанный для лингвистов. Читать легко и приятно, поймете все про выборки для обучения.
Почти для всех курсов и учебников пререквизиты одинаковые: Python, матстат, основы ML
С чего начать в NLP
Пункт номер 0. Учебник со всеми классическими методами от Daniel Jurafsky ссылка
Бессмертная классика, и постоянно выходят обновления.
Пункт номер 1. Стенфордский видеокурс "CS224n: Natural Language Processing with Deep Learning" - есть материалы за прошлые годы, смотрите самый последний (зима 2021) ссылка
Пункт номер 2 и далее. Практика-практика. Делайте своих ботов, классификаторы, микросервисные архитектуры с модельками. Много туториалов на Medium, плюс новые модели на https://paperswithcode.com/sota
◽️Много полезного собрано в учебных материалах DeepPavlov - курс уже прошел, но материалы доступны на Github - тут есть и план обучения, и идеи проектов. Во многом пересекается по материалам со стенфордским курсом.
Дополнительно:
◽️Учебник по NLP от Jacob Eisenstein - 2018 года, но большинство глав up-to-date ссылка
◽️Учебник "A Primer on Neural Network Models for Natural Language Processing" (2015 года, тоже староват, но все основные подходы вам все еще понадобятся) ссылка
На русском:
◽️Бесплатный курс Павла Бралавского "Введение в обработку естественного языка" на stepic: ссылка
Мне он показался сложноватым для совсем новичков, но зато у вас сразу будет несколько Jupyter-проектов на выходе.
◽️Виктор Захаров, учебник "КОРПУСНАЯ ЛИНГВИСТИКА" ссылка
Отличный учебник, написанный для лингвистов. Читать легко и приятно, поймете все про выборки для обучения.
Почти для всех курсов и учебников пререквизиты одинаковые: Python, матстат, основы ML
huggingface.co
Trending Papers - Hugging Face
Your daily dose of AI research from AK
👍15🔥1
#cv #news #gen
🚀 Сегодня Midjourney (сеть для генерации картинок по тексту) пускает всех попользоваться своей бетой!
Поэтому быстро надеваем штаны и идем к ним в облако.
P.S. генерация идет в discord, зарегайтесь там сначала, потом получите приглашение по ссылке.
Ссылка
🚀 Сегодня Midjourney (сеть для генерации картинок по тексту) пускает всех попользоваться своей бетой!
Поэтому быстро надеваем штаны и идем к ним в облако.
P.S. генерация идет в discord, зарегайтесь там сначала, потом получите приглашение по ссылке.
Ссылка
🔥6
#articles
➕1000 языков от Google
Горячая статья от Google про машинный перевод на тысячу языков. Описывают свои наработки по этой теме. Ничем пока что не делятся, но есть любопытные наблюдения.
• Period trick. Во время тестирования модели обнаружили, что качество для многих пар языков деградирует, если в input не оканчивается точкой. А иногда из-за этого даже переводит не на тот язык.
• Так же как и в статье от Meta обращают внимание на то, что есть много языков с несколькими видами письменности. Сделали отдельные модели по "переводу" (транслитерации) одного письма в другое.
• Поисследовали как ведет себя модель, если заменить буквы их unicode-близнецами (например "I" и палочка).
🖖 Пожелаем удачи исследователям и будем следить за новостями!
Статья
➕1000 языков от Google
Горячая статья от Google про машинный перевод на тысячу языков. Описывают свои наработки по этой теме. Ничем пока что не делятся, но есть любопытные наблюдения.
• Period trick. Во время тестирования модели обнаружили, что качество для многих пар языков деградирует, если в input не оканчивается точкой. А иногда из-за этого даже переводит не на тот язык.
• Так же как и в статье от Meta обращают внимание на то, что есть много языков с несколькими видами письменности. Сделали отдельные модели по "переводу" (транслитерации) одного письма в другое.
• Поисследовали как ведет себя модель, если заменить буквы их unicode-близнецами (например "I" и палочка).
🖖 Пожелаем удачи исследователям и будем следить за новостями!
Статья
👍9
#nlp #big #news
Что надо знать про Bloom 🌸
〰️ Что это?
Большая языковая модель (LLM) для генерации текста, которую в течение года готовил коллективный разум (более 1000 человек из 70-ти стран) при помощи суперкомпьютера Jean Zay. Пользовались грантом на €3M.
〰️ Зачем?
Большие корпорации тратят такие средства постоянно, но в открытый доступ модели выкладывают редко. Эта модель — открытая. По размеру эквивалентна GPT-3 175B, но на 1 миллиард параметров больше 😁.
〰️ В чем особенность?
Модель мультиязычная (59 языков, 13 из которых — языки программирования, список будет ниже). Большой упор на редкие африканские языки.
Русского нет, если вбросить промпт [To say "I love you" in Russian, you would say], то будет транслит:
〰️ Почему новость сейчас?
А потому что эту махину дообучили и заливают на huggingface на радость всем желающим (есть модели разного размера, какие-то финальные, какие-то в процессе) 👉
Huggingface | Логи обучения | Про датасет
Что надо знать про Bloom 🌸
〰️ Что это?
Большая языковая модель (LLM) для генерации текста, которую в течение года готовил коллективный разум (более 1000 человек из 70-ти стран) при помощи суперкомпьютера Jean Zay. Пользовались грантом на €3M.
〰️ Зачем?
Большие корпорации тратят такие средства постоянно, но в открытый доступ модели выкладывают редко. Эта модель — открытая. По размеру эквивалентна GPT-3 175B, но на 1 миллиард параметров больше 😁.
〰️ В чем особенность?
Модель мультиязычная (59 языков, 13 из которых — языки программирования, список будет ниже). Большой упор на редкие африканские языки.
Русского нет, если вбросить промпт [To say "I love you" in Russian, you would say], то будет транслит:
To say "I love you" in Russian, you would say "ya lyublyu" or "ya lyubit." These can be used when speaking.
〰️ Почему новость сейчас?
А потому что эту махину дообучили и заливают на huggingface на радость всем желающим (есть модели разного размера, какие-то финальные, какие-то в процессе) 👉
Huggingface | Логи обучения | Про датасет
🔥9👍6
#theory
🎲 Broadcasting
При работе с тензорами в торче (не путать с мат. тензорами) важно знать про то, как работает broadcasting. Это когда вы проделываете операции с тензорами разной размерности, например, умножаете друг на друга.
Если broadcasting происходит, то операция считается без дополнительного выделения памяти, что обычно ведет к ускорению.
Чтобы это случилось должны выполняться три условия (кроме того, что в обоих тензорах должна быть хотя бы одна размерность). Начиная с последней размерности (смотрим картинку), они должны:
1️⃣ Либо совпадать
2️⃣ Либо одна из них должна быть единичкой
3️⃣ Либо одной из них не должно быть
👉 Чтобы потренироваться с этим, а заодно решить несколько задачек вот вам классный репозиторий Tensor-Puzzles. Прилагается Colab.
А для истинных копателей у автора есть еще и GPU-Puzzles.
🎲 Broadcasting
При работе с тензорами в торче (не путать с мат. тензорами) важно знать про то, как работает broadcasting. Это когда вы проделываете операции с тензорами разной размерности, например, умножаете друг на друга.
Если broadcasting происходит, то операция считается без дополнительного выделения памяти, что обычно ведет к ускорению.
Чтобы это случилось должны выполняться три условия (кроме того, что в обоих тензорах должна быть хотя бы одна размерность). Начиная с последней размерности (смотрим картинку), они должны:
1️⃣ Либо совпадать
2️⃣ Либо одна из них должна быть единичкой
3️⃣ Либо одной из них не должно быть
👉 Чтобы потренироваться с этим, а заодно решить несколько задачек вот вам классный репозиторий Tensor-Puzzles. Прилагается Colab.
А для истинных копателей у автора есть еще и GPU-Puzzles.
👍8🔥2⚡1