#useful #nlp #translation #article
Список всех языков, которые поддерживает NLLB 👆
Всего 204 штуки, причем 150 из них классифицированы как малоресурсные — для них нашлось менее 1 миллиона уникальных пар текстов, параллельных с каким-то другим языком.
Список всех языков, которые поддерживает NLLB 👆
Всего 204 штуки, причем 150 из них классифицированы как малоресурсные — для них нашлось менее 1 миллиона уникальных пар текстов, параллельных с каким-то другим языком.
👍3
🔥10
#useful #nlp #translation
Скрипты для запуска NLLB, модели машинного перевода на 200+ языков. Предварительно надо скачать dense чекпоинт отсюда.
https://github.com/pluiez/NLLB-inference
Скрипты для запуска NLLB, модели машинного перевода на 200+ языков. Предварительно надо скачать dense чекпоинт отсюда.
https://github.com/pluiez/NLLB-inference
GitHub
GitHub - facebookresearch/fairseq at nllb
Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - GitHub - facebookresearch/fairseq at nllb
👍3
#wip
Журавль в руках
Запустил NLLB локально (меньшую модель, на 600M параметров), попереводил с различных редких языков на русский.
Оно действительно работает, текст получается складный (метрики качества можно посмотреть в статье). Так что теперь у нас есть качественная модель машинного перевода для любых пар из 200+ языков.
Попробуйте сами, понадобится:
1️⃣ установить несколько зависимостей отсюда (apex и megatron для инференса не нужны)
2️⃣ скачать чекпоинт (600M или больше)
3️⃣ воспользоваться скриптом из поста выше
P.S. Пишите, если что-то не заработает
Журавль в руках
Запустил NLLB локально (меньшую модель, на 600M параметров), попереводил с различных редких языков на русский.
Оно действительно работает, текст получается складный (метрики качества можно посмотреть в статье). Так что теперь у нас есть качественная модель машинного перевода для любых пар из 200+ языков.
Попробуйте сами, понадобится:
1️⃣ установить несколько зависимостей отсюда (apex и megatron для инференса не нужны)
2️⃣ скачать чекпоинт (600M или больше)
3️⃣ воспользоваться скриптом из поста выше
P.S. Пишите, если что-то не заработает
🔥7👍6
Forwarded from Kali Novskaya (Tatiana Shavrina)
Сделала для вас подборку литературы:
С чего начать в NLP
Пункт номер 0. Учебник со всеми классическими методами от Daniel Jurafsky ссылка
Бессмертная классика, и постоянно выходят обновления.
Пункт номер 1. Стенфордский видеокурс "CS224n: Natural Language Processing with Deep Learning" - есть материалы за прошлые годы, смотрите самый последний (зима 2021) ссылка
Пункт номер 2 и далее. Практика-практика. Делайте своих ботов, классификаторы, микросервисные архитектуры с модельками. Много туториалов на Medium, плюс новые модели на https://paperswithcode.com/sota
◽️Много полезного собрано в учебных материалах DeepPavlov - курс уже прошел, но материалы доступны на Github - тут есть и план обучения, и идеи проектов. Во многом пересекается по материалам со стенфордским курсом.
Дополнительно:
◽️Учебник по NLP от Jacob Eisenstein - 2018 года, но большинство глав up-to-date ссылка
◽️Учебник "A Primer on Neural Network Models for Natural Language Processing" (2015 года, тоже староват, но все основные подходы вам все еще понадобятся) ссылка
На русском:
◽️Бесплатный курс Павла Бралавского "Введение в обработку естественного языка" на stepic: ссылка
Мне он показался сложноватым для совсем новичков, но зато у вас сразу будет несколько Jupyter-проектов на выходе.
◽️Виктор Захаров, учебник "КОРПУСНАЯ ЛИНГВИСТИКА" ссылка
Отличный учебник, написанный для лингвистов. Читать легко и приятно, поймете все про выборки для обучения.
Почти для всех курсов и учебников пререквизиты одинаковые: Python, матстат, основы ML
С чего начать в NLP
Пункт номер 0. Учебник со всеми классическими методами от Daniel Jurafsky ссылка
Бессмертная классика, и постоянно выходят обновления.
Пункт номер 1. Стенфордский видеокурс "CS224n: Natural Language Processing with Deep Learning" - есть материалы за прошлые годы, смотрите самый последний (зима 2021) ссылка
Пункт номер 2 и далее. Практика-практика. Делайте своих ботов, классификаторы, микросервисные архитектуры с модельками. Много туториалов на Medium, плюс новые модели на https://paperswithcode.com/sota
◽️Много полезного собрано в учебных материалах DeepPavlov - курс уже прошел, но материалы доступны на Github - тут есть и план обучения, и идеи проектов. Во многом пересекается по материалам со стенфордским курсом.
Дополнительно:
◽️Учебник по NLP от Jacob Eisenstein - 2018 года, но большинство глав up-to-date ссылка
◽️Учебник "A Primer on Neural Network Models for Natural Language Processing" (2015 года, тоже староват, но все основные подходы вам все еще понадобятся) ссылка
На русском:
◽️Бесплатный курс Павла Бралавского "Введение в обработку естественного языка" на stepic: ссылка
Мне он показался сложноватым для совсем новичков, но зато у вас сразу будет несколько Jupyter-проектов на выходе.
◽️Виктор Захаров, учебник "КОРПУСНАЯ ЛИНГВИСТИКА" ссылка
Отличный учебник, написанный для лингвистов. Читать легко и приятно, поймете все про выборки для обучения.
Почти для всех курсов и учебников пререквизиты одинаковые: Python, матстат, основы ML
huggingface.co
Trending Papers - Hugging Face
Your daily dose of AI research from AK
👍15🔥1
#cv #news #gen
🚀 Сегодня Midjourney (сеть для генерации картинок по тексту) пускает всех попользоваться своей бетой!
Поэтому быстро надеваем штаны и идем к ним в облако.
P.S. генерация идет в discord, зарегайтесь там сначала, потом получите приглашение по ссылке.
Ссылка
🚀 Сегодня Midjourney (сеть для генерации картинок по тексту) пускает всех попользоваться своей бетой!
Поэтому быстро надеваем штаны и идем к ним в облако.
P.S. генерация идет в discord, зарегайтесь там сначала, потом получите приглашение по ссылке.
Ссылка
🔥6
#articles
➕1000 языков от Google
Горячая статья от Google про машинный перевод на тысячу языков. Описывают свои наработки по этой теме. Ничем пока что не делятся, но есть любопытные наблюдения.
• Period trick. Во время тестирования модели обнаружили, что качество для многих пар языков деградирует, если в input не оканчивается точкой. А иногда из-за этого даже переводит не на тот язык.
• Так же как и в статье от Meta обращают внимание на то, что есть много языков с несколькими видами письменности. Сделали отдельные модели по "переводу" (транслитерации) одного письма в другое.
• Поисследовали как ведет себя модель, если заменить буквы их unicode-близнецами (например "I" и палочка).
🖖 Пожелаем удачи исследователям и будем следить за новостями!
Статья
➕1000 языков от Google
Горячая статья от Google про машинный перевод на тысячу языков. Описывают свои наработки по этой теме. Ничем пока что не делятся, но есть любопытные наблюдения.
• Period trick. Во время тестирования модели обнаружили, что качество для многих пар языков деградирует, если в input не оканчивается точкой. А иногда из-за этого даже переводит не на тот язык.
• Так же как и в статье от Meta обращают внимание на то, что есть много языков с несколькими видами письменности. Сделали отдельные модели по "переводу" (транслитерации) одного письма в другое.
• Поисследовали как ведет себя модель, если заменить буквы их unicode-близнецами (например "I" и палочка).
🖖 Пожелаем удачи исследователям и будем следить за новостями!
Статья
👍9
#nlp #big #news
Что надо знать про Bloom 🌸
〰️ Что это?
Большая языковая модель (LLM) для генерации текста, которую в течение года готовил коллективный разум (более 1000 человек из 70-ти стран) при помощи суперкомпьютера Jean Zay. Пользовались грантом на €3M.
〰️ Зачем?
Большие корпорации тратят такие средства постоянно, но в открытый доступ модели выкладывают редко. Эта модель — открытая. По размеру эквивалентна GPT-3 175B, но на 1 миллиард параметров больше 😁.
〰️ В чем особенность?
Модель мультиязычная (59 языков, 13 из которых — языки программирования, список будет ниже). Большой упор на редкие африканские языки.
Русского нет, если вбросить промпт [To say "I love you" in Russian, you would say], то будет транслит:
〰️ Почему новость сейчас?
А потому что эту махину дообучили и заливают на huggingface на радость всем желающим (есть модели разного размера, какие-то финальные, какие-то в процессе) 👉
Huggingface | Логи обучения | Про датасет
Что надо знать про Bloom 🌸
〰️ Что это?
Большая языковая модель (LLM) для генерации текста, которую в течение года готовил коллективный разум (более 1000 человек из 70-ти стран) при помощи суперкомпьютера Jean Zay. Пользовались грантом на €3M.
〰️ Зачем?
Большие корпорации тратят такие средства постоянно, но в открытый доступ модели выкладывают редко. Эта модель — открытая. По размеру эквивалентна GPT-3 175B, но на 1 миллиард параметров больше 😁.
〰️ В чем особенность?
Модель мультиязычная (59 языков, 13 из которых — языки программирования, список будет ниже). Большой упор на редкие африканские языки.
Русского нет, если вбросить промпт [To say "I love you" in Russian, you would say], то будет транслит:
To say "I love you" in Russian, you would say "ya lyublyu" or "ya lyubit." These can be used when speaking.
〰️ Почему новость сейчас?
А потому что эту махину дообучили и заливают на huggingface на радость всем желающим (есть модели разного размера, какие-то финальные, какие-то в процессе) 👉
Huggingface | Логи обучения | Про датасет
🔥9👍6
#theory
🎲 Broadcasting
При работе с тензорами в торче (не путать с мат. тензорами) важно знать про то, как работает broadcasting. Это когда вы проделываете операции с тензорами разной размерности, например, умножаете друг на друга.
Если broadcasting происходит, то операция считается без дополнительного выделения памяти, что обычно ведет к ускорению.
Чтобы это случилось должны выполняться три условия (кроме того, что в обоих тензорах должна быть хотя бы одна размерность). Начиная с последней размерности (смотрим картинку), они должны:
1️⃣ Либо совпадать
2️⃣ Либо одна из них должна быть единичкой
3️⃣ Либо одной из них не должно быть
👉 Чтобы потренироваться с этим, а заодно решить несколько задачек вот вам классный репозиторий Tensor-Puzzles. Прилагается Colab.
А для истинных копателей у автора есть еще и GPU-Puzzles.
🎲 Broadcasting
При работе с тензорами в торче (не путать с мат. тензорами) важно знать про то, как работает broadcasting. Это когда вы проделываете операции с тензорами разной размерности, например, умножаете друг на друга.
Если broadcasting происходит, то операция считается без дополнительного выделения памяти, что обычно ведет к ускорению.
Чтобы это случилось должны выполняться три условия (кроме того, что в обоих тензорах должна быть хотя бы одна размерность). Начиная с последней размерности (смотрим картинку), они должны:
1️⃣ Либо совпадать
2️⃣ Либо одна из них должна быть единичкой
3️⃣ Либо одной из них не должно быть
👉 Чтобы потренироваться с этим, а заодно решить несколько задачек вот вам классный репозиторий Tensor-Puzzles. Прилагается Colab.
А для истинных копателей у автора есть еще и GPU-Puzzles.
👍8🔥2⚡1
#linguistics
🔠 В свободное время люблю делать разные интересные штуки, связанные с лингвистикой.
За N часов составил и нарисовал диаграмму Венна общих букв среди славянских языков с латинской письменностью. Очень долго вписывал кашубский.
🔠 В свободное время люблю делать разные интересные штуки, связанные с лингвистикой.
За N часов составил и нарисовал диаграмму Венна общих букв среди славянских языков с латинской письменностью. Очень долго вписывал кашубский.
🔥11👍3
#pr
〰️ Дал небольшое интервью на работе по поводу перехода из бэкенд-разработки в машинное обучение.
Так как переходил я из программирования в программирование, то эпичных историй не ждите 😁.
Зато есть пара мыслей про то, что мне помогло — pet-проекты, заметки и практика. 👉
〰️ Дал небольшое интервью на работе по поводу перехода из бэкенд-разработки в машинное обучение.
Так как переходил я из программирования в программирование, то эпичных историй не ждите 😁.
Зато есть пара мыслей про то, что мне помогло — pet-проекты, заметки и практика. 👉
Forwarded from Криптонит. Разработка, наука, шифрование
«Мой переход был спокойным и постепенным». Исследователь в области речи и текста в «Криптоните» Сергей Аверкиев рассказывает, как ушёл из бэкенд-разработки и начал заниматься машинным обучением. Интервью полезно тем, кто думает, как сменить сферу внутри ИТ (и стоит ли это вообще делать?).
Telegraph
«Мой переход был спокойным и постепенным»: бывший бэкенд-разработчик рассказывает, как пришёл в машинное обучение
В «Криптоните» работает Сергей Аверкиев. Он занимается исследованиями в области речи и текста в лаборатории больших данных и статистики. Но до этого много лет он работал бэкенд-разработчиком. Мы поговорили с Сергеем и узнали, как происходил переход из одной…
👍8🔥4❤1
#lingtrain #books
Нарисовал тут две обложки для книг (сделаю русско-английские версии).
1️⃣ gray street of the 80s city, yellow sky as a background, hyper realistic, detailed, 4k
2️⃣ scene from master and margarita by bulgakov, illustration with black cat, red color
Нарисовал тут две обложки для книг (сделаю русско-английские версии).
1️⃣ gray street of the 80s city, yellow sky as a background, hyper realistic, detailed, 4k
2️⃣ scene from master and margarita by bulgakov, illustration with black cat, red color
🔥13