Градиент обреченный
7.97K subscribers
834 photos
20 videos
8 files
454 links
Download Telegram
Media is too big
VIEW IN TELEGRAM
🔺 SDXL Turbo

Stability AI сделали дистиллированную версию своей модели по генерации картинок и выложили в открытый доступ.

Пишут, что картинка с хорошим качеством генерится сразу за 1 шаг (!). На большой модели требуется 30-50 шагов.

Теперь можно генерировать в реальном времени, попробуйте демо.

👉 HF | Релиз | Демо
🔥216👌1👾1
🔺 GigaChat-митап (4 декабря, 18:00)

Что-то я забегался и забыл рассказать про офлайн-митап, который мы проводим в понедельник. Расскажем про обучение LLM, также коллеги поделятся опытом работы с синтезом речи.

Информация из первых уст, все те ребята, с кем сидим на созвонах и раскаляем кластер экспериментами (Гриша Лелейтнер, Никита Сидоров и Эмиль Шакиров расскажут про претрейн и выравнивание GigaChat'а).

👉 Пока еще можно зарегистрироваться офлайн, но все смогут посмотреть трансляцию. Ссылка.

Приходите, пообщаемся!
🔥19👍321
Находим себя на картинке
😁50🔥7🗿32👍2👏1🆒1
Forwarded from Sergei Averkiev
«Абсолютное оружие» Шекли.

#dalle
🔥275👍4💯2😡2
🔺 The Qwen (72B, audio, visual, agents)

Китайские товарищи оформили все свои публичные наработки в едином репозитории на GitHub'е, а также выложили еще пачку моделей в открытый доступ.

🔸 Qwen-Audio

Новая языковая модель (есть и -chat версия), принимает на вход речь и другие звуки, музыку и песни, текст. На выходе генерирует текст.

• Как водится, заявляют SOTA результаты по всем задачам — машинный перевод по аудио, классификация звука, определение эмоций и другие.

🔸 Qwen-Agent

Еще выложили фреймворк для дообучения Qwen на задачи вызова сторонних инструментов. Сам подход простой, но есть прикольные примеры и сама обвязка, которую можно использовать как идею для своего проекта на других моделях. Есть примеры по обсуждению с моделью веб-страниц или PDF документов, по визуализации данных и подсказкам к коду.

🔸 Qwen 72B

Ну и самое интересное. Выложили 72B модель, которая обучалась на 3T токенов. И, судя по выложенным бенчмаркам, обходит на некоторых тестах GPT-4. Среди таких тестов тесты на китайском языке, так что вполне возможно, что для своего языка коллеги приблизились к качеству GPT-4. И выложили это в открытый доступ 👍

Кстати, узнал, что название Qwen является сокращением от Qian wen (千问), что-то типа «тысяча запросов».

👉 GitHub
🔥217👍42
Митап про LLM и синтез речи

https://www.youtube.com/live/0R8MSRi3Vyo
👍18🔥102🤪1
⚡️ Gemini

Внезапный релиз аналога GPT-4 от Google.

🔸 Три разных версии — Ultra, Pro и Nano (Nano-1 (1.8B) и Nano-2 (3.25B)). Ultra бьет всех (т.е. GPT-4) на 30 бенчмарках из 32-х, и в чисто текстовых, и в картиночных, и в аудио.

• Коллеги подошли к замерам находчиво и сделали их по разным методологиям (см. отчет). MMLU померили в CoT@32, т.е. цепочки рассуждений, что показало результат аж в 90.04% против 87.27% у GPT-4.

🔸 Обучали токенизатор на большом куске датасета и, видимо, он большой, так как пишут, что он эффективно токенизирует отличную от латиницы письменность и это докидывает в качестве.

🔸 Модели мультиязычные, на тестах по машинному переводу WMT 23 опять же бьет GPT-4 (там перевод с и на английский). Замерили на нескольких малых африканских языках, также заявляют о лучших результатах для LLM.

🔸 Длина контекста — 32k токенов.

🔸 В аппендиксе отчета пишут, почему замеряли MMLU при помощи CoT@32 uncertainty-routed и как это делать, чтобы выиграть у GPT-4 (если делать неправильно, то GPT-4 побеждает :).

🔸 Pro версию Gemini можно будет пробовать через Bard (в пресс-релизе говорят, что уже есть, но пока нет). API is coming soon.

👉 Пост | Тех. репорт
🔥286🎉4😁3👀21👍1🍾1🙈1🗿1
Forwarded from Lingtrain
🔺 Книжка-трансформер

Добавил в нашу книжку-трансформер с малыми языками еще две редакции «Маленького принца» — на чувашском и карачаево-балкарском языках.

📚 Итого их стало 12: балкарский, башкирский, дигорский, коми, марийский и горномарийский, татарский, чувашский, эрзянский, якутский, русский и французский.

Все языки выровнены друг с другом, поэтому можно выбирать любую комбинацию. Обратной стороной общего выравнивания является то, что с каждым новым языком в общем корпусе становится на несколько предложений меньше, так как переводчики иногда переводят несколько предложений как одно цельное.

Текстов уже много, поэтому скоро составлю список таких склеенных предложений, поиграем и разобъем их на более мелкие в соответствии с оригиналом.

👉 Книжка
🔥33👍9732👏1
#основы

🔺 Позиционные эмбеддинги

Хороший обзор позиционных эмбеддингов (способов добавления информации о положении токена в последовательности при обучении языковых моделей) от коллеги Мурата.

От простых, которые использовались в первых трансформерах, до популярных ныне rotary и их модификаций, которые используются во многих современных моделях.

👉 Статья
👍30🔥14721
🔺 GigaChat Pro. Технические детали

Друзья, написали с коллегами небольшую статью про то как обучался GigaChat. Рассказали про оптимизации, про сбор данных и сравнились с другими моделями. Всем, кому интересно обучение LLM, приглашаю почитать.

https://habr.com/ru/companies/sberdevices/articles/780334/
🔥3164👍3👏33🤷‍♂1🎉1
🔺 Новые открытые LLM #ml_news

Пришло время обозреть открытые языковые модели, вышедшие за последнее время.

Mixtral-8x7B

Новая модель от французского стартапа Mistral. Обучили модель подходом MoE (Mixture of Experts), при котором небольшая часть модели является роутером, а остальная часть состоит из N «экспертов», из которых активируется только часть.

Здесь таких частей 8, то есть суммарный вес модели ~ 45B параметров, но вычислений при инференсе столько же, как у 14B модели (активируется топ-2 «эксперта»).

Благодаря этому, Mixtral превосходит Llama 70B на большинстве бенчмарков, работая в 6 раз быстрее. На днях выложили и инструктивную версию.

HF | GitHub

Phi-2

Продолжение экспериментов с малыми моделями от Microsoft. На этот раз модель стала больше — 2.7B. Идея, напомню, в обучении модели в основном на синтетических данных, тщательно подготовленных. Объем данных сравнительно небольшой — 1.4B токенов за ~5 эпох.

На многих тестах Phi-2 показывает себя лучше чем модели размером 13B, а в некоторых случаях, типа кода, лучше Llama 70B. Также на всех тестах лучше Gemini Nano 2 (3.2B). MMLU — 56,7.

HF | релиз

Zephyr 3B

И новая модель от StableLM, которую обучили на открытых датасетах и выровняли при помощи DPO. Ребята провели замеры на MT-Bench (тесты, в которых в роли судьи играет другая LLM) и получили неплохие результаты, кое-где догоняя ChatGPT 3.5. На MMLU получили 46.3.

Поигрался с Zephyr'ом, на английском понравилось, на русском очень слабо.

> Describe unexisted Martian language like in Wikipedia article

> An extinct Martian language, also known as an extinct extraterrestrial language, was an ancient linguistic system used by the hypothetical intelligent, now extinct,
Martian civilization that once inhabited the Red Planet.

1. Language family: ...


HF | релиз
🔥27👍433❤‍🔥2😁1👀1
🎉 Друзья, нас 5000!

Давайте знакомиться. Меня зовут Сергей и я люблю заниматься всякой ерундой — учить языки, играть в футбол и теннис, бренчать на гитаре.

❄️ Понаехав в столицу из Якутии, отучился на инженера и научился немного программировать. Много занимался разработкой бэкенда под .NET и сменил немало компаний от Авикома до Касперского (всем привет).

📚 Делаю Lingtrainоткрытый проект по выравниванию параллельных корпусов и созданию мультиязычных книг. Хочется, чтобы больше людей занимались изучением языков, потому что это клёво. У нас есть чат (тык).

🧩 Сейчас занимаюсь машинным обучением в Сбере. Ставим над нейросетями нечеловеческие эксперименты в команде AGI NLP. Также с кучей умных ребят делаем GigaChat, приближая восстание машин и другие варианты светлого будущего.

👉 А теперь вы расскажите о себе — чем увлекаетесь, чем занимаетесь, как у вас дела?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥3213🎉43👾21😁1
Forwarded from Lingtrain
🔺 Обновление Lingtrain

Дошли руки собрать и выложить новую версию. В нее вошли обновления, которые очень сильно помогают при выравнивании параллельного «Маленького Принца» на малых языках. Собственно, пришлось сделать такие штуки, чтобы успевать хоть что-то выровнять :)

Разбиение конфликтов

Система работает так, что на основе эмбеддингов подбирает наиболее вероятные соответствия между предложениями на разных языках. Между такими цепочками остаются разрывы (конфликты, пара цепочек на двух языках, между которыми надо сделать соответствия), которые выраниваются на втором этапе. На третьем этапе остаются самые длинные конфликты, которые надо править руками, либо уменьшать до приемлемого размера в редакторе.

Теперь можно, смотря на конфликт визуально, выбрать пару совпадений и «сшить» разрыв в этом месте. Благо, что пунктуация, длина предложений и имена собственные играют тут роль подсказок и помогают эти соответствия найти. Таким образом можно разбить длинный конфликт из 50 пар предложений на 5-10 штук по-меньше, заодно улучшив качество выравнивания, и разрешить их автоматически.

Docker

Образы для локального запуска:

• lingtrain/studio:v9.0 (50+ языков)
• lingtrain/studio:v9.0-labse (100+ языков)
• lingtrain/studio:v9.0-tiny (ru-en)

Запускается все как раньше (инструкция).

Beta

На beta.lingtra.in завтра подниму tiny версию, которая работает на модели rubert-tiny2 от Давида. Можно будет попробовать для выравнивания русских и английских текстов.

👉 GitHub
👍24🔥8321
Коллеги выкатили генерацию новогодних открыток Гигачатом и Кандинским. Зур чак-чак нарисовать не вышло, но в целом получается очень прикольно.

👉 Можно попробовать тут.
👍146🎉5😁3👾2
🇮🇹 Побывал тут в Риме в отпуске, и вот что могу вам сказать.

Такси от аэропорта до гостиницы стоит примерно столько же, сколько перелет из Еревана в Рим.

• Есть крутые скоростные поезда, курсирующие с севера страны на юг. Можно за час с небольшим доехать до Неаполя, погулять там и вернуться, что мы и сделали.

• Очень люблю посещать местные книжные магазины, поэтому в Риме зашел в la Feltrinelli. Не удержался и прикупил пару книжек.

• Отстояв очередь за билетами на Римский форум, оказалось, что оплата там только по карточкам, а у нас их не было. Помог сосед по очереди.

• Сам форум потрясающий, можно гулять часами. По Колизею растекались толпы народу, туда не пошли.

Погода была замечательная, солнечно и +10-15. Мог быть и дождь, но повезло.

• Сходили на выставку Эшера. Очень классно, много интерактива, особенно понравилась комната, создающая иллюзию, что один человек больше другого. Еще узнали, что Эшер много лет жил в Риме и итальянские пейзажи присутствуют на некоторых его работах.

• Такси от гостиницы до аэропорта было ночью и стоило еще дороже чем первое 😁

• На последней фотке гостеприимный Ереван. Город, который старше Рима на 29 лет.

🎉 Ну а теперь, друзья, готовимся к новому году. Собираемся с мыслями, строим грандиозные планы, нарезаем оливье!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4820👍10🍾55🥰1