Градиент обреченный
7.97K subscribers
834 photos
20 videos
8 files
454 links
Download Telegram
#fun

Когда поправил README в общественном проекте на github.
😁13🐳3
#lingtrain #books

Нарисовал тут две обложки для книг (сделаю русско-английские версии).

1️⃣ gray street of the 80s city, yellow sky as a background, hyper realistic, detailed, 4k

2️⃣ scene from master and margarita by bulgakov, illustration with black cat, red color
🔥13
#useful #colab #nlp #translation

NLLB на Huggingface

Модели перевода на 200 языков от MetaAI стали доступны на Huggingface.

👉 Собрал Colab в две строчки кода, чтобы поиграться. PR с NllbTokenizer уже одобрили, на днях въедет в основную ветку библиотеки transformers, так что можно пробовать, все работает.

Colab
🔥10👍1
На прошлой неделе меня дважды спрашивали, как восстановить текст предложения из его LaBSE эмбеддинга. Я дважды отвечал, что никак.

Но на самом деле, конечно, можно обучить декодер генерировать текст по его эмбеддингу. Я попробовал, и примерно получилось.

Зачем это делать? Например, чтобы:
- переводить со 100 разных языков на русский;
- суммаризовать много похожих предложений одним;
- реалистично заменять фразы в составе предложений;
- менять смысл предложений.

Модель для восстановления предложений из эмбеддингов опубликована как cointegrated/rut5-base-labse-decoder, а подробности – на Хабре.
👍8
#опятьэтолицо #pr #habr

〰️ Рассказывал недавно коллегам про то, как переходил в машинное обучение (занимаюсь в основном NLP), — какие были трудности и легкости.

Особенных советов, по-моему, не дал, но все же. Если кто-то тоже хочет ворваться в NLP или в другой ML, то давайте обсудим. Пишите, что вас останавливает или наоборот, мотивирует (это важно).

👉 Хабр
🔥6👍2😁1
#news #video #models

CogVideo — генерируем видео по тексту

🇨🇳 Китайские коллеги из Tsinghua University выложили веса модели CogVideo.

〰️ Что это?

Это модель, которая позволяет сгенерировать уже не одну статическую картинку, а последовательность кадров, из которых можно сделать видео.

〰️ Что внутри?

Внутри трансформерная модель, размером в 9B параметров. Генерация происходит их предыдущей разработкой — моделью CogView2, которая рисует картинки по тексту. При обучении придумали добавлять к входной последовательности частотный frame-rate токен. Картинки для обучения сэмплирутся из видео с этой же частотой.

👉 Как и остальные исследователи, авторы беспокоятся о генерации фейков, но модель в открытый доступ все же выложили. Какие молодцы.

GitHub, Статья, Демо
🔥4👍1
#colab #nlp #notes #gpt

Цветная перплексия

⭐️ Собрал Colab, который подсвечивает предложения с учетом их перплексии.

Перплексия простыми словами — это то, насколько модель "удивлена" показанной ей последовательности. На этот показатель смотрят при обучении языковых моделей. С улучшением качества он постепенно снижается.

Соответственно, для более "непривычных" и необычных для себя текстов готовая модель будет показывать большую перплексию.

• Подсчет через ruGPT-3 по предложеням.
• На предложения текст бьется natasha'ей.
• Переносы сохраняются (чтоб стишки выглядели красиво).

👉 Colab
👍15🥴1
#news #tools

🧨 Diffusers

Huggingface выкатили новую библиотеку под названием diffusers. В ней будут собраны предтренированные диффузионные генеративные модели.

• для генерации аудио
• для RL (обучение с подкреплением)
• для генерации видео
• само собой и для картинок тоже

👉 Можно дообучать на своем датасете, менять пайплайн генерации, задавать различные виды шума (из которого проявляется результат).

Модели добавляются, уже можно подгружать генераторы изображений. Можно поиграться тут (порисовать лица несуществующих знаменитостей).

GitHub
👍8🔥1
#чтивонаночь

Недавно от заказчика пришел запрос сделать классификатор текстов. При этом ни обучающих данных, ни домена, ни количества классов он предоставлять не стал.

Штош. Сделал TF-IDF + логрег, засунул в два докера — train и predict, написал как пользоваться и отдал.

Через какое-то время ко мне вернулись со словами, что балалайка не работает. Подумал. Так как это бейзлайн и хоть как-то он работать должен, то дело может быть в их разметке.

Попросил взять немного данных, дать нескольким сотрудникам на разметку и посмотреть совпадут ли они с между собой и с обучающей выборкой.

Тут заказчик сознался, что классов несколько сотен, тексты размечаются автоматически на уровне рандома и что человеки само собой тоже путаются. А на самом деле им нужно поделить на два класса спам/не спам.

Общайтесь с заказчиком и сначала делайте бейзлайн. Аминь.
🔥5👍4😁2
#cv #news #gen

🔮 Midjourney открылся

На случай, если вы пропустили, — midjourney вышел в открытую бету. А это значит, что любой желающий может немедленно начать генерировать контент по тексту.

👉 Генерация идет через discord, вот ссылка на приглашение.

Запросы ограничены только вашим воображением, вот вам пара идей:

• Том Круз Танос
• Илон Маск сиба-ину
• Вселенная в бутылке
• Рисунок красного воробья
🔥11
#notes #data #nlp #lingtrain

Делаем корпус парафраз

Если выровнять два текста на разных языках, то получится параллельный корпус. Если выравнивать тексты на одном языке, — то корпус парафраз (предложений, имеющих один смысл, но написанных по разному).

💡 Пришла в голову идея по использованию lingtrain'а для выравнивания переводов книг на одном языке.

〰️ Зачем?

Обычно такие корпуса используют для обучения генеративных моделей переписывать тексты с сохранением смысла, переноса стиля или аугментирования.

Кроме того, так как это не просто тексты, а профессиональные художественные переводы, то и сам корпус будет представлять из себя интерес (можно будет, например, проанализировать разницу между переводами Норы Галь и современными переводчиками).

Если к нему добавить еще и оригинальный текст, то получится референсный словарь для переводчиков с несколькими вариантами.

Из плюсов видится то, что книг для выравнивания много — классика и популярные произведения часто переводятся по нескольку раз разными переводчиками. Предложения получаются очень разнообразными (иногда даже слишком), так как каждый переводчик имеет свой неповторимый стиль.

Последний пункт может являться и минусом, так как некоторые переводчики склонны чересчур обогащать текст. На это надо обратить внимание перед выравниванием.

👉 P.S. Попробовал на русских переводах Агаты Кристи, получается довольно неплохо.

GitHub c выравнивателем | agata.tmx
🔥9👍6
#linguistics #cv #craft

📚 Нарисовал пару диаграммок для любителей графики и лингвистики.

Затронуты различные письменности славянских языков, а также арабо-персидская.

Если есть идеи, чего бы еще такого порисовать, то пишите. Еще лучше, если сразу составите диаграмму 😁
🔥18👍4