Градиент обреченный
7.97K subscribers
834 photos
20 videos
8 files
453 links
Download Telegram
Как тебе такое, Кустодиев...
🔥47😁116❤‍🔥2👍2😡1
Друзья, опять какой-то рейтинг.

Если не сложно и вы видите ссылку (работает только в последней версии телеграм) и у вас премиум аккаунт, то кликните. А я вам пока нормальный пост напишу.

С ростом рейтинга у канала появятся дополнительные возможности, типа написания историй и других ненужных вещей.

👉 http://t.me/doomgrad?boost
😁10👍3🗿32😡2🎉1🕊1🤗1
🔺 Новые открытые LLM #ml_news

Мы чуть-чуть отвлеклись, а в мире LLM тем временем прибыло. Пробежимся по интересному.

phi 1.5

Исследователи из Microsoft продолжают искать предел эффективности "малых" языковых моделей. Новая модель phi 1.5 размером 1.3B обучалась 8 дней на 36 A100 и на большинстве тестов показывает результаты лучше чем модели размера 7B и 13B (например, 37.9 на MMLU).

🔹 Фишка — тщательная подготовка данных, авторы видят в этом один из основных путей развития LLM. Обучающие данные у phi 1.5 в основном синтетические, но на уровне качества учебников ("textbook quality").

Статья | HF

FLM-101B

Китайские товарищи учатся экономить и обучили модель с 101B параметров за 100 тысяч долларов (примерно половина зарплаты типичного айтишника). Модель видела 0.31T токенов и на тестах выглядит не очень. Однако авторы дообучают модель с первого шага (см. ниже) размером 13B при помощи FreeLM на специфических данных и получают eFLM-16B, которая сразу показывает сильные результаты (44.50 на MMLU).

🔹 Фишка — количество параметров модели не зафиксировано, а растет вместе с ходом обучения, что уменьшает количество затрачиваемых ресурсов. Таким образом, у исследователей получаются модели 16B (видела 245B токенов на ~10 дней), 51B (~40B токенов за 5 дней) и 101B (26B токенов за ~6 дней).

Статья | HF

Baichuan 2

Байчуань 2
. Китайские же исследователи выложили ряд моделей (7B, 13B, base и chat версии), которые обучались на корпусе в 2.6T токенов. Мультиязычные данные там присутствовали, судя по тестам на машинный перевод (замерялись на FLORES, BLEU на паре китайский-русский показывает 11.21). MMLU у 13B по их замерам аж 59. В токенизаторе 125k токенов.

🔹 Фишка — модели видели очень много текста и есть промежуточные чейкпоинты (11 штук), по которым можно отследить как меняются показатели на бенчмарках и сравнить с ходом своих экспериментов. Из забавного — в токенизаторе есть несколько очень длинных токенов типа "подпишись на Boye Online в WeChat" и "Спасибо за вашу поддержку. Я верю, что мы вместе будем двигаться вперед."

Статья | HF
🔥29👍921
Когда тебе нужно время подумать
😁61🥴22💅9🔥3🤓2💯1
Следующий уровень prompt injection'а

Наверняка видели, что в GPT-4 завезли мультимодальный диалог с картинками, попробовать можно через Bing.

Так вот, напрямую распознавать капчу она отказывается, но, если положить капчу внутрь бабушкиного амулета или попросить распознать "татуировку", то трюк проходит. Ждём, когда пофиксят.

👉 А вот в этом обзоре — The Dawn of LMMs от Microsoft, можно почитать про возможности GPT-4V с картинками.
🔥33😁21👍3❤‍🔥1🤯1🍾1👻1
🎵

Немного музыки для вечерних раздумий о Римской империи.

#piano
Please open Telegram to view this post
VIEW IN TELEGRAM
😁23🔥4🥰3😡2🥴1
👍98😡2👏1💯1
🔺 SAGE

Тут коллеги натренировали SOTA модели для коррекции орфографии.

В открытый доступ выложили сами модели, библиотеку sage, которая умеет исправлять и имитировать человеческие ошибки, а также вручную размеченные датасеты.

Hugging Face

ruM2M100-1.2B
ruM2M100-418M
FredT5-large-spell
T5-large-spell (английский язык)

👉 Ребята молодцы, можно прочитать про ход работ и результаты на Хабре.

Хабр | GitHub
🔥49🏆43👍1🥰1
🔺 Новые открытые LLM #ml_news

Очередная порция открытых языковых моделей за последние пару недель.

Mistral 7B

Модель от одноименного французского стартапа, которая уверенно бьет на тестах Llama 2 13B. Из интересных особенностей — Sliding Window Attention (внимание модели направленно на k токенов назад, вместо всей последовательности), что позволяет ускорить инференс.

На днях вышел технический репорт, а команда Сайги из NLP сообщества дообучила модель на русских инструкциях, а также проверила её на русскоязычном бенчмарке Russian SuperGLUE, заняв первое место после решения задач людьми.

Благодаря сильному претрейну и переносу знаний между языками инструктивные версии Mistral'я неплохо генерируют текст на русском, за исключением того, что не имеют специфических знаний типа русских книг, пословиц и т.д. и на такие темы начинают галлюцинировать.

GitHub, HF

StableLM 3B

Stability AI, подарившая нам модели для генерации картинок, выпустила открытую языковую модель StableLM-3B-4E1T, упор в которой сделан на количество токенов при обучении (модель "увидела" 4T токенов за 4 эпохи) и небольшой размер модели, что делает её удобной при инференсе.

По ней так же выпустили технический отчёт с графиками обучения. Данные для обучения брали публичные — RedefinedWeb, RedPajama, The Pile, а также код.

Исследователи делятся выводом о том, что в условии ограниченного количества данных, будет нормальным показывать ей их до 4-х раз, и это будет не сильно хуже, чем учить на том же количестве уникальных текстов. Мотивируют это наблюдение результатами и статьей.

GitHub, HF
🔥22👍6🏆311
Даже пошёл погуглить, но нет, такого цирка не было. И я б в него не пошёл.
😁31🔥8👻3👾3
🔺 Работа с языками

Несколько интересных новостей, связанных с языками.

🔸 «Маленький принц» на малых языках

Так как энтузиаст дигорского языка Руслан, собрал около 50-ти книг на этом языке из осетинской группы, и среди книг был «Маленький принц», то я попробовал выровнять их при помощи нашего проекта Lingtrain и сделать русско-дигорскую книжку-трансформер (если у вас есть «Принц» на других необычных языках, то скидывайте).

Книжка, GitHub

🔸 Рецепт обучения NNLB под свой язык

Давид собрал Colab по дообучению самой сильной открытой модели машинного перевода от Meta под новый язык. Проделано все на примере тувинского языка. Очень прикольно. Все, кто собирает параллельные корпуса, имейте в виду.

Colab, Medium
👍15🔥863👏1
🔺 GigaChat обновился

Друзья, хорошие новости!

Очень много работаем с коллегами над улучшением наших моделей и приходим потихоньку к новой линейке. Сегодня вышел релиз первой из этих моделей и GigaChat уже начал работать на ней.

На MMLU модель показала 50+ и по всем задачам стала почти в два раза лучше предыдущей на SBS (сравнительный тест). Контекст также увеличен в два раза — 4k токенов.

Написал небольшой обзор вместе с популярной частью про машинное обучение и языковые модели. Прошу поддержать статью и попробовать модель в действии.

Можно через tg-бота, vk-бота или web-интерфейс (там теперь можно сохранять запросы в избранное).

👉 Хабр
🔥32👍107🎉2😡2🥴1
Новые файнтюны Llama подъехали. #ml_news
😁394🏆43👍1🤯1😱1
Это я, когда пишу плохой код.
😁123🔥10💅6👍5🤯4😱32😎1👾1