Градиент обреченный
7.98K subscribers
834 photos
20 videos
8 files
454 links
Download Telegram
VQ-Diffusion

Что это такое?

Это модель от microsoft. Смысл этой модели и различие её от обычной диффузии(glide, dalle2, imagen) заключается в том, что она генерирует латентное пространство vqvae, вместо того, чтобы генерировать сразу картинку.

Они заменили unet на трансформер dalle, что позволяет им без проблем генерировать сразу пространство vqvae.
Также они считают текстовые эмбеддинги с помощью клипа, что довольно интересно.

Собрал колаб для этой модели.

гитхаб
пейпер

@gradientdip
👍5🤔1
#misc

Systems analyst or systems programmer

👓 Билл Гейтс выложил в соцсетях свое резюме 70-х годов.

Если вы думаете, что ваше резюме не важно выглядит, то не расстраивайтесь. У человека было вот такое и где он теперь. 😁
👍4😁1
This media is not supported in your browser
VIEW IN TELEGRAM
#fun #cv #gen

🚀 Друзья, посмотрите на это видео. Красиво, правда?

〰️ Кадры сгенерированы автором канала @too_motion при помощи DALL-E 2 (генеративная text-to-image сеть от OpenAI).

Делать сразу видео она не умеет, зато классно дорисовывает недостающие части картинки. Автор воспользовался этим и последовательно подавал сети немного повернутый и уменьшенный предыдущий кадр. Получилась вот такая sci-fi зарисовка.

Ждем ответа от Imagen.
🔥9
heinlein_door_en_ru.pdf
2.2 MB
#lingtrain #books #nlp #tools

📚 DIY книги

Научился делать вот такие параллельные книги из двух текстовых файлов.

Сначала идет процесс выравнивания при помощи модельки, которая оценивает близость предложений по смыслу. Затем разрешаются конфликты (количество предложений между оригиналом и переводом могут отличаться существенно).

Потом немного магии с генерацией PDF'а. Ну а обложку генерирую при помощи диффузионных моделей.

✔️ Весь код выложил, инструкцию написал. Так что не стесняйтесь, делайте книги, изучайте языки.

GitHub, Статья
🔥10👍4
This media is not supported in your browser
VIEW IN TELEGRAM
#cv #colab #gen

Нейросеть для скетчей

🌗 Интересный проект для тех, кто рисовать не умеет, но всегда хотел. Авторы не стали тренировать какую-нибудь сетку на скетчах, а сделали так:

1️⃣ Скетч определяется как набор N кривых Безье на белом фоне (это такие кривые с параметрами в виде точек и углов в них).
2️⃣ При помощи CLIP (сеть с общим латентным пространством для картинок и текста) получаем карту внимания и по ней ставим начальные точки кривых.
3️⃣ Есть растеризатор с обучаемыми параметрами, который рисует наш скетч.
4️⃣ На каждом шаге между картинкой из растеризатора и исхожным изображением считаем лосс CLIP'ом и корректируем параметры.
5️⃣ Получаем скетч.

Круто, что такой скетч на выходе получается в векторном формате (svg), можно поиграться с ним в иллюстраторе. Кроме того, можно менять количество линий.

👉 Попробуйте порисовать сами при помощи Colab'а.

Colab, GitHub, О проекте
🔥10
#news #big #models #nlp #translation

🍰 No language left behind

Meta
опубликовала веса моделей машинного перевода на 200+ языков!

- Старшая модель на 54,5 B параметров.
- Есть дистилляты на 1.3B и 600M, то есть простым смертным тоже получится запустить.
- Есть малоресурсные языки (из языков России заметил Башкирский. Чувашского и Якутского вроде нет).

Замечательно, что происходит такая демократизация моделей! Будем пробовать. 👍

GitHub, Демо
👍10
#useful #nlp #translation #article

Список всех языков, которые поддерживает NLLB 👆

Всего 204 штуки, причем 150 из них классифицированы как малоресурсные — для них нашлось менее 1 миллиона уникальных пар текстов, параллельных с каким-то другим языком.
👍3
#fun #cv #gen

Нейроботы

Всем пятничных роботов в ленту. Почти все на позитиве, грустит только один.

Нарисовано при помощи Disco Diffusion, ссылка на Colab ниже (это бесплатная среда для запуска кода на Python).

Colab
🔥10
#useful #nlp #translation

Скрипты для запуска NLLB, модели машинного перевода на 200+ языков. Предварительно надо скачать dense чекпоинт отсюда.

https://github.com/pluiez/NLLB-inference
👍3
#wip

Журавль в руках

Запустил NLLB локально (меньшую модель, на 600M параметров), попереводил с различных редких языков на русский.

Оно действительно работает, текст получается складный (метрики качества можно посмотреть в статье). Так что теперь у нас есть качественная модель машинного перевода для любых пар из 200+ языков.

Попробуйте сами, понадобится:

1️⃣ установить несколько зависимостей отсюда (apex и megatron для инференса не нужны)

2️⃣ скачать чекпоинт (600M или больше)

3️⃣ воспользоваться скриптом из поста выше

P.S. Пишите, если что-то не заработает
🔥7👍6
Forwarded from Kali Novskaya (Tatiana Shavrina)
Сделала для вас подборку литературы:
С чего начать в NLP

Пункт номер 0.
Учебник со всеми классическими методами от Daniel Jurafsky ссылка
Бессмертная классика, и постоянно выходят обновления.

Пункт номер 1. Стенфордский видеокурс "CS224n: Natural Language Processing with Deep Learning" - есть материалы за прошлые годы, смотрите самый последний (зима 2021) ссылка

Пункт номер 2 и далее. Практика-практика. Делайте своих ботов, классификаторы, микросервисные архитектуры с модельками. Много туториалов на Medium, плюс новые модели на https://paperswithcode.com/sota
◽️Много полезного собрано в учебных материалах DeepPavlov - курс уже прошел, но материалы доступны на Github - тут есть и план обучения, и идеи проектов. Во многом пересекается по материалам со стенфордским курсом.

Дополнительно:
◽️Учебник по NLP от Jacob Eisenstein - 2018 года, но большинство глав up-to-date ссылка

◽️Учебник "A Primer on Neural Network Models for Natural Language Processing" (2015 года, тоже староват, но все основные подходы вам все еще понадобятся) ссылка

На русском:
◽️Бесплатный курс Павла Бралавского "Введение в обработку естественного языка" на stepic: ссылка
Мне он показался сложноватым для совсем новичков, но зато у вас сразу будет несколько Jupyter-проектов на выходе.

◽️Виктор Захаров, учебник "КОРПУСНАЯ ЛИНГВИСТИКА" ссылка
Отличный учебник, написанный для лингвистов. Читать легко и приятно, поймете все про выборки для обучения.

Почти для всех курсов и учебников пререквизиты одинаковые: Python, матстат, основы ML
👍15🔥1
#cv #news #gen

🚀 Сегодня Midjourney (сеть для генерации картинок по тексту) пускает всех попользоваться своей бетой!

Поэтому быстро надеваем штаны и идем к ним в облако.

P.S. генерация идет в discord, зарегайтесь там сначала, потом получите приглашение по ссылке.

Ссылка
🔥6
#articles

1000 языков от Google

Горячая статья от Google про машинный перевод на тысячу языков. Описывают свои наработки по этой теме. Ничем пока что не делятся, но есть любопытные наблюдения.

• Period trick. Во время тестирования модели обнаружили, что качество для многих пар языков деградирует, если в input не оканчивается точкой. А иногда из-за этого даже переводит не на тот язык.
• Так же как и в статье от Meta обращают внимание на то, что есть много языков с несколькими видами письменности. Сделали отдельные модели по "переводу" (транслитерации) одного письма в другое.
• Поисследовали как ведет себя модель, если заменить буквы их unicode-близнецами (например "I" и палочка).

🖖 Пожелаем удачи исследователям и будем следить за новостями!

Статья
👍9