#nlp #big #news
Что надо знать про Bloom 🌸
〰️ Что это?
Большая языковая модель (LLM) для генерации текста, которую в течение года готовил коллективный разум (более 1000 человек из 70-ти стран) при помощи суперкомпьютера Jean Zay. Пользовались грантом на €3M.
〰️ Зачем?
Большие корпорации тратят такие средства постоянно, но в открытый доступ модели выкладывают редко. Эта модель — открытая. По размеру эквивалентна GPT-3 175B, но на 1 миллиард параметров больше 😁.
〰️ В чем особенность?
Модель мультиязычная (59 языков, 13 из которых — языки программирования, список будет ниже). Большой упор на редкие африканские языки.
Русского нет, если вбросить промпт [To say "I love you" in Russian, you would say], то будет транслит:
〰️ Почему новость сейчас?
А потому что эту махину дообучили и заливают на huggingface на радость всем желающим (есть модели разного размера, какие-то финальные, какие-то в процессе) 👉
Huggingface | Логи обучения | Про датасет
Что надо знать про Bloom 🌸
〰️ Что это?
Большая языковая модель (LLM) для генерации текста, которую в течение года готовил коллективный разум (более 1000 человек из 70-ти стран) при помощи суперкомпьютера Jean Zay. Пользовались грантом на €3M.
〰️ Зачем?
Большие корпорации тратят такие средства постоянно, но в открытый доступ модели выкладывают редко. Эта модель — открытая. По размеру эквивалентна GPT-3 175B, но на 1 миллиард параметров больше 😁.
〰️ В чем особенность?
Модель мультиязычная (59 языков, 13 из которых — языки программирования, список будет ниже). Большой упор на редкие африканские языки.
Русского нет, если вбросить промпт [To say "I love you" in Russian, you would say], то будет транслит:
To say "I love you" in Russian, you would say "ya lyublyu" or "ya lyubit." These can be used when speaking.
〰️ Почему новость сейчас?
А потому что эту махину дообучили и заливают на huggingface на радость всем желающим (есть модели разного размера, какие-то финальные, какие-то в процессе) 👉
Huggingface | Логи обучения | Про датасет
🔥9👍6
#theory
🎲 Broadcasting
При работе с тензорами в торче (не путать с мат. тензорами) важно знать про то, как работает broadcasting. Это когда вы проделываете операции с тензорами разной размерности, например, умножаете друг на друга.
Если broadcasting происходит, то операция считается без дополнительного выделения памяти, что обычно ведет к ускорению.
Чтобы это случилось должны выполняться три условия (кроме того, что в обоих тензорах должна быть хотя бы одна размерность). Начиная с последней размерности (смотрим картинку), они должны:
1️⃣ Либо совпадать
2️⃣ Либо одна из них должна быть единичкой
3️⃣ Либо одной из них не должно быть
👉 Чтобы потренироваться с этим, а заодно решить несколько задачек вот вам классный репозиторий Tensor-Puzzles. Прилагается Colab.
А для истинных копателей у автора есть еще и GPU-Puzzles.
🎲 Broadcasting
При работе с тензорами в торче (не путать с мат. тензорами) важно знать про то, как работает broadcasting. Это когда вы проделываете операции с тензорами разной размерности, например, умножаете друг на друга.
Если broadcasting происходит, то операция считается без дополнительного выделения памяти, что обычно ведет к ускорению.
Чтобы это случилось должны выполняться три условия (кроме того, что в обоих тензорах должна быть хотя бы одна размерность). Начиная с последней размерности (смотрим картинку), они должны:
1️⃣ Либо совпадать
2️⃣ Либо одна из них должна быть единичкой
3️⃣ Либо одной из них не должно быть
👉 Чтобы потренироваться с этим, а заодно решить несколько задачек вот вам классный репозиторий Tensor-Puzzles. Прилагается Colab.
А для истинных копателей у автора есть еще и GPU-Puzzles.
👍8🔥2⚡1
#linguistics
🔠 В свободное время люблю делать разные интересные штуки, связанные с лингвистикой.
За N часов составил и нарисовал диаграмму Венна общих букв среди славянских языков с латинской письменностью. Очень долго вписывал кашубский.
🔠 В свободное время люблю делать разные интересные штуки, связанные с лингвистикой.
За N часов составил и нарисовал диаграмму Венна общих букв среди славянских языков с латинской письменностью. Очень долго вписывал кашубский.
🔥11👍3
#pr
〰️ Дал небольшое интервью на работе по поводу перехода из бэкенд-разработки в машинное обучение.
Так как переходил я из программирования в программирование, то эпичных историй не ждите 😁.
Зато есть пара мыслей про то, что мне помогло — pet-проекты, заметки и практика. 👉
〰️ Дал небольшое интервью на работе по поводу перехода из бэкенд-разработки в машинное обучение.
Так как переходил я из программирования в программирование, то эпичных историй не ждите 😁.
Зато есть пара мыслей про то, что мне помогло — pet-проекты, заметки и практика. 👉
Forwarded from Криптонит. Разработка, наука, шифрование
«Мой переход был спокойным и постепенным». Исследователь в области речи и текста в «Криптоните» Сергей Аверкиев рассказывает, как ушёл из бэкенд-разработки и начал заниматься машинным обучением. Интервью полезно тем, кто думает, как сменить сферу внутри ИТ (и стоит ли это вообще делать?).
Telegraph
«Мой переход был спокойным и постепенным»: бывший бэкенд-разработчик рассказывает, как пришёл в машинное обучение
В «Криптоните» работает Сергей Аверкиев. Он занимается исследованиями в области речи и текста в лаборатории больших данных и статистики. Но до этого много лет он работал бэкенд-разработчиком. Мы поговорили с Сергеем и узнали, как происходил переход из одной…
👍8🔥4❤1
#lingtrain #books
Нарисовал тут две обложки для книг (сделаю русско-английские версии).
1️⃣ gray street of the 80s city, yellow sky as a background, hyper realistic, detailed, 4k
2️⃣ scene from master and margarita by bulgakov, illustration with black cat, red color
Нарисовал тут две обложки для книг (сделаю русско-английские версии).
1️⃣ gray street of the 80s city, yellow sky as a background, hyper realistic, detailed, 4k
2️⃣ scene from master and margarita by bulgakov, illustration with black cat, red color
🔥13
Какая больше нравится?
Anonymous Poll
72%
1️⃣ "Град обреченный" Стругацких
35%
2️⃣ "Мастер и Маргарита" Булгакова
#useful #colab #nlp #translation
NLLB на Huggingface
Модели перевода на 200 языков от MetaAI стали доступны на Huggingface.
👉 Собрал Colab в две строчки кода, чтобы поиграться. PR с NllbTokenizer уже одобрили, на днях въедет в основную ветку библиотеки transformers, так что можно пробовать, все работает.
Colab
NLLB на Huggingface
Модели перевода на 200 языков от MetaAI стали доступны на Huggingface.
👉 Собрал Colab в две строчки кода, чтобы поиграться. PR с NllbTokenizer уже одобрили, на днях въедет в основную ветку библиотеки transformers, так что можно пробовать, все работает.
Colab
🔥10👍1
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
На прошлой неделе меня дважды спрашивали, как восстановить текст предложения из его LaBSE эмбеддинга. Я дважды отвечал, что никак.
Но на самом деле, конечно, можно обучить декодер генерировать текст по его эмбеддингу. Я попробовал, и примерно получилось.
Зачем это делать? Например, чтобы:
- переводить со 100 разных языков на русский;
- суммаризовать много похожих предложений одним;
- реалистично заменять фразы в составе предложений;
- менять смысл предложений.
Модель для восстановления предложений из эмбеддингов опубликована как cointegrated/rut5-base-labse-decoder, а подробности – на Хабре.
Но на самом деле, конечно, можно обучить декодер генерировать текст по его эмбеддингу. Я попробовал, и примерно получилось.
Зачем это делать? Например, чтобы:
- переводить со 100 разных языков на русский;
- суммаризовать много похожих предложений одним;
- реалистично заменять фразы в составе предложений;
- менять смысл предложений.
Модель для восстановления предложений из эмбеддингов опубликована как cointegrated/rut5-base-labse-decoder, а подробности – на Хабре.
👍8
#опятьэтолицо #pr #habr
〰️ Рассказывал недавно коллегам про то, как переходил в машинное обучение (занимаюсь в основном NLP), — какие были трудности и легкости.
Особенных советов, по-моему, не дал, но все же. Если кто-то тоже хочет ворваться в NLP или в другой ML, то давайте обсудим. Пишите, что вас останавливает или наоборот, мотивирует (это важно).
👉 Хабр
〰️ Рассказывал недавно коллегам про то, как переходил в машинное обучение (занимаюсь в основном NLP), — какие были трудности и легкости.
Особенных советов, по-моему, не дал, но все же. Если кто-то тоже хочет ворваться в NLP или в другой ML, то давайте обсудим. Пишите, что вас останавливает или наоборот, мотивирует (это важно).
👉 Хабр
Хабр
Pet-проекты, заметки и практика. Как перейти из backend-разработки в ML
В «Криптоните» работает Сергей Аверкиев ( @averkij ). Он занимается исследованиями в области речи и текста в лаборатории больших данных и статистики. Но до этого много лет он работал...
🔥6👍2😁1
#news #video #models
CogVideo — генерируем видео по тексту
🇨🇳 Китайские коллеги из Tsinghua University выложили веса модели CogVideo.
〰️ Что это?
Это модель, которая позволяет сгенерировать уже не одну статическую картинку, а последовательность кадров, из которых можно сделать видео.
〰️ Что внутри?
Внутри трансформерная модель, размером в 9B параметров. Генерация происходит их предыдущей разработкой — моделью CogView2, которая рисует картинки по тексту. При обучении придумали добавлять к входной последовательности частотный frame-rate токен. Картинки для обучения сэмплирутся из видео с этой же частотой.
👉 Как и остальные исследователи, авторы беспокоятся о генерации фейков, но модель в открытый доступ все же выложили. Какие молодцы.
GitHub, Статья, Демо
CogVideo — генерируем видео по тексту
🇨🇳 Китайские коллеги из Tsinghua University выложили веса модели CogVideo.
〰️ Что это?
Это модель, которая позволяет сгенерировать уже не одну статическую картинку, а последовательность кадров, из которых можно сделать видео.
〰️ Что внутри?
Внутри трансформерная модель, размером в 9B параметров. Генерация происходит их предыдущей разработкой — моделью CogView2, которая рисует картинки по тексту. При обучении придумали добавлять к входной последовательности частотный frame-rate токен. Картинки для обучения сэмплирутся из видео с этой же частотой.
👉 Как и остальные исследователи, авторы беспокоятся о генерации фейков, но модель в открытый доступ все же выложили. Какие молодцы.
GitHub, Статья, Демо
🔥4👍1
#colab #nlp #notes #gpt
Цветная перплексия
⭐️ Собрал Colab, который подсвечивает предложения с учетом их перплексии.
Перплексия простыми словами — это то, насколько модель "удивлена" показанной ей последовательности. На этот показатель смотрят при обучении языковых моделей. С улучшением качества он постепенно снижается.
Соответственно, для более "непривычных" и необычных для себя текстов готовая модель будет показывать большую перплексию.
• Подсчет через ruGPT-3 по предложеням.
• На предложения текст бьется natasha'ей.
• Переносы сохраняются (чтоб стишки выглядели красиво).
👉 Colab
Цветная перплексия
⭐️ Собрал Colab, который подсвечивает предложения с учетом их перплексии.
Перплексия простыми словами — это то, насколько модель "удивлена" показанной ей последовательности. На этот показатель смотрят при обучении языковых моделей. С улучшением качества он постепенно снижается.
Соответственно, для более "непривычных" и необычных для себя текстов готовая модель будет показывать большую перплексию.
• Подсчет через ruGPT-3 по предложеням.
• На предложения текст бьется natasha'ей.
• Переносы сохраняются (чтоб стишки выглядели красиво).
👉 Colab
👍15🥴1
#news #tools
🧨 Diffusers
Huggingface выкатили новую библиотеку под названием diffusers. В ней будут собраны предтренированные диффузионные генеративные модели.
• для генерации аудио
• для RL (обучение с подкреплением)
• для генерации видео
• само собой и для картинок тоже
👉 Можно дообучать на своем датасете, менять пайплайн генерации, задавать различные виды шума (из которого проявляется результат).
Модели добавляются, уже можно подгружать генераторы изображений. Можно поиграться тут (порисовать лица несуществующих знаменитостей).
GitHub
🧨 Diffusers
Huggingface выкатили новую библиотеку под названием diffusers. В ней будут собраны предтренированные диффузионные генеративные модели.
• для генерации аудио
• для RL (обучение с подкреплением)
• для генерации видео
• само собой и для картинок тоже
👉 Можно дообучать на своем датасете, менять пайплайн генерации, задавать различные виды шума (из которого проявляется результат).
Модели добавляются, уже можно подгружать генераторы изображений. Можно поиграться тут (порисовать лица несуществующих знаменитостей).
GitHub
👍8🔥1
#чтивонаночь
Недавно от заказчика пришел запрос сделать классификатор текстов. При этом ни обучающих данных, ни домена, ни количества классов он предоставлять не стал.
Штош. Сделал TF-IDF + логрег, засунул в два докера — train и predict, написал как пользоваться и отдал.
Через какое-то время ко мне вернулись со словами, что балалайка не работает. Подумал. Так как это бейзлайн и хоть как-то он работать должен, то дело может быть в их разметке.
Попросил взять немного данных, дать нескольким сотрудникам на разметку и посмотреть совпадут ли они с между собой и с обучающей выборкой.
Тут заказчик сознался, что классов несколько сотен, тексты размечаются автоматически на уровне рандома и что человеки само собой тоже путаются. А на самом деле им нужно поделить на два класса спам/не спам.
Общайтесь с заказчиком и сначала делайте бейзлайн. Аминь.
Недавно от заказчика пришел запрос сделать классификатор текстов. При этом ни обучающих данных, ни домена, ни количества классов он предоставлять не стал.
Штош. Сделал TF-IDF + логрег, засунул в два докера — train и predict, написал как пользоваться и отдал.
Через какое-то время ко мне вернулись со словами, что балалайка не работает. Подумал. Так как это бейзлайн и хоть как-то он работать должен, то дело может быть в их разметке.
Попросил взять немного данных, дать нескольким сотрудникам на разметку и посмотреть совпадут ли они с между собой и с обучающей выборкой.
Тут заказчик сознался, что классов несколько сотен, тексты размечаются автоматически на уровне рандома и что человеки само собой тоже путаются. А на самом деле им нужно поделить на два класса спам/не спам.
Общайтесь с заказчиком и сначала делайте бейзлайн. Аминь.
🔥5👍4😁2
#cv #news #gen
🔮 Midjourney открылся
На случай, если вы пропустили, — midjourney вышел в открытую бету. А это значит, что любой желающий может немедленно начать генерировать контент по тексту.
👉 Генерация идет через discord, вот ссылка на приглашение.
Запросы ограничены только вашим воображением, вот вам пара идей:
• Том Круз Танос
• Илон Маск сиба-ину
• Вселенная в бутылке
• Рисунок красного воробья
🔮 Midjourney открылся
На случай, если вы пропустили, — midjourney вышел в открытую бету. А это значит, что любой желающий может немедленно начать генерировать контент по тексту.
👉 Генерация идет через discord, вот ссылка на приглашение.
Запросы ограничены только вашим воображением, вот вам пара идей:
• Том Круз Танос
• Илон Маск сиба-ину
• Вселенная в бутылке
• Рисунок красного воробья
🔥11