Градиент обреченный

Благодаря новой модели для перевода от Meta, узнал, что же от меня всё время требует кошка.

Работает круто, а еще есть мультимодальные эмбеддинги SONAR (аудио-текст).

👉 Демо

😁47🔥10👍3❤‍🔥1

4.18K viewsSergei Averkiev, 15:34

Градиент обреченный

🔺 Ideogram

🔸 Авторы Imagen от Google презентовали новую модель, отличительной стороной которой является более-менее стабильное рисование текста на изображении.

🔸 Картинки додумывает в стиле midjourney, то есть для простого промпта генерирует что-то приятно выглядящее для пользователя.

Третьи руки и шестые пальцы, естественно, никуда не делись.

👉 Демо (ссылка на waitlist, одобряют сразу)

P.S. Надписи на русском не выходят.

👍18😁3🤔2✍1🤯1

4.18K viewsSergei Averkiev, edited 13:10

Градиент обреченный

С появления первой фотографии в 1826 году до 15-ти миллиардной в 1975-м прошло 150 лет.

Столько же картинок создало сообщество за полтора года, причем 80% — это генерации на основе открытой модели Stable Diffusion.

Поймал себя на мысли, что начинаю относиться к сгенерированным картинкам, особенно кринжовым (с лишними конечностями и проклятыми лицами), не как к мусору, а как к какому-то современному искусству.

Еще статистика тут.

👍23❤5⚡3😁1🤯1

4.5K viewsSergei Averkiev, 05:40

Градиент обреченный

🔺 Новые открытые LLM #ml_news

Вот так пролетает пара недель, а за это время столько всего нового вышло.

➕ Persimmon 8B

Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.

Пост, GitHub.

➕ Falcon 180B

TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.

Пост, HF, Демо

➕ Code Llama 7B, 13B, 34B

Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).

Пост, GitHub

➕ Qwen-VL 7B (+ Chat version)

Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.

GitHub, HF, Colab

👍26🔥8❤5👾1

18.5K viewsSergei Averkiev, edited 09:57

Градиент обреченный

grammar-of-solresol-rus.pdf

461.5 KB

#language_facts

🔺 Про Сольресоль

Прочитал тут в дороге грамматику языка Сольресоль, изобретенного Жаном Франсуа Сюдром в 1817 году. Это ведь довольно любопытная вещь.

Язык должен был стать ни много ни мало мировым, он нейтрален к существующим языкам и даже позволяет общаться слепым с иностранными глухонемыми, а алфавит его вы уже знаете.

🔸 В алфавите всего семь слогов: do, re, mi, fa, sol, la, si. Все оттенки и синонимы обычного языка объединены в одно слово.

dore — я, мне
domi — ты, тебе

🔸 Слова бывают от одного до четырех слогов (пятисложные в последней грамматике указаны не были). Всего слов насчитывается 2800.

mifala – хотеть, желать, жаждать, стремиться к.

🔸 Чтобы изменить смысл слова на противоположный, надо написать или произнести его задом наперёд.

fala — хороший
lafa — плохой
solsifa — смеяться
fasisol — плакать

🔸 Многосложные слова для удобства запоминания объединены в смысловые группы.

doremi — день 
dorefa — неделя
dorela — год

В общем, мифаля доми фаля дорефа.

P.S. При всем прочем, грамматика и лексикон у этого языка действительно просты. Но так как говорить на нем не с кем, то из идей видится только "перевод" мелодий на естественный язык (а вдруг что-то получится?).

👍31🔥17❤5🤓5

4.46K viewsSergei Averkiev, edited 06:42

Градиент обреченный

Поигрался немного с ControlNet'ом. Это такой способ наложить дополнительные условия на генерацию картинки. В оригинальной статье автор предложил 8 различных способов (сохранение позы, контуры, карта глубины и другие).

Для новой модели SDXL-1.0 ControlNet тоже есть. Как запускать можно посмотреть здесь.

🔥30❤6😁4⚡1✍1👍1

4.78K viewsSergei Averkiev, 07:55

Градиент обреченный

Как тебе такое, Кустодиев...

🔥47😁11❤6❤‍🔥2👍2😡1

5.77K viewsSergei Averkiev, 11:47

Градиент обреченный

Друзья, опять какой-то рейтинг.

Если не сложно и вы видите ссылку (работает только в последней версии телеграм) и у вас премиум аккаунт, то кликните. А я вам пока нормальный пост напишу.

С ростом рейтинга у канала появятся дополнительные возможности, типа написания историй и других ненужных вещей.

👉 http://t.me/doomgrad?boost

😁10👍3🗿3❤2😡2🎉1🕊1🤗1

3.74K viewsSergei Averkiev, 06:47

Градиент обреченный

🔺 Новые открытые LLM #ml_news

Мы чуть-чуть отвлеклись, а в мире LLM тем временем прибыло. Пробежимся по интересному.

➕ phi 1.5

Исследователи из Microsoft продолжают искать предел эффективности "малых" языковых моделей. Новая модель phi 1.5 размером 1.3B обучалась 8 дней на 36 A100 и на большинстве тестов показывает результаты лучше чем модели размера 7B и 13B (например, 37.9 на MMLU).

🔹 Фишка — тщательная подготовка данных, авторы видят в этом один из основных путей развития LLM. Обучающие данные у phi 1.5 в основном синтетические, но на уровне качества учебников ("textbook quality").

Статья | HF

➕ FLM-101B

Китайские товарищи учатся экономить и обучили модель с 101B параметров за 100 тысяч долларов (примерно половина зарплаты типичного айтишника). Модель видела 0.31T токенов и на тестах выглядит не очень. Однако авторы дообучают модель с первого шага (см. ниже) размером 13B при помощи FreeLM на специфических данных и получают eFLM-16B, которая сразу показывает сильные результаты (44.50 на MMLU).

🔹 Фишка — количество параметров модели не зафиксировано, а растет вместе с ходом обучения, что уменьшает количество затрачиваемых ресурсов. Таким образом, у исследователей получаются модели 16B (видела 245B токенов на ~10 дней), 51B (~40B токенов за 5 дней) и 101B (26B токенов за ~6 дней).

Статья | HF

➕ Baichuan 2

Байчуань 2. Китайские же исследователи выложили ряд моделей (7B, 13B, base и chat версии), которые обучались на корпусе в 2.6T токенов. Мультиязычные данные там присутствовали, судя по тестам на машинный перевод (замерялись на FLORES, BLEU на паре китайский-русский показывает 11.21). MMLU у 13B по их замерам аж 59. В токенизаторе 125k токенов.

🔹 Фишка — модели видели очень много текста и есть промежуточные чейкпоинты (11 штук), по которым можно отследить как меняются показатели на бенчмарках и сравнить с ходом своих экспериментов. Из забавного — в токенизаторе есть несколько очень длинных токенов типа "подпишись на Boye Online в WeChat" и "Спасибо за вашу поддержку. Я верю, что мы вместе будем двигаться вперед."

Статья | HF

🔥29👍9❤2⚡1

6.07K viewsSergei Averkiev, 09:24

Градиент обреченный

Когда тебе нужно время подумать

😁61🥴22💅9🔥3🤓2💯1

5.13K viewsSergei Averkiev, 09:05

Градиент обреченный

Следующий уровень prompt injection'а

Наверняка видели, что в GPT-4 завезли мультимодальный диалог с картинками, попробовать можно через Bing.

Так вот, напрямую распознавать капчу она отказывается, но, если положить капчу внутрь бабушкиного амулета или попросить распознать "татуировку", то трюк проходит. Ждём, когда пофиксят.

👉 А вот в этом обзоре — The Dawn of LMMs от Microsoft, можно почитать про возможности GPT-4V с картинками.

🔥33😁21👍3❤‍🔥1🤯1🍾1👻1

4.89K viewsSergei Averkiev, 18:59

Градиент обреченный

🎵

Немного музыки для вечерних раздумий о Римской империи.

#piano

Please open Telegram to view this post

VIEW IN TELEGRAM

😁23🔥4🥰3😡2🥴1

4.72K viewsSergei Averkiev, 16:14

Градиент обреченный

Audio

👍9❤8😡2👏1💯1

5.34K viewsSergei Averkiev, 16:14

Градиент обреченный

🔺 SAGE

Тут коллеги натренировали SOTA модели для коррекции орфографии.

В открытый доступ выложили сами модели, библиотеку sage, которая умеет исправлять и имитировать человеческие ошибки, а также вручную размеченные датасеты.

Hugging Face

• ruM2M100-1.2B
• ruM2M100-418M
• FredT5-large-spell
• T5-large-spell (английский язык)

👉 Ребята молодцы, можно прочитать про ход работ и результаты на Хабре.

Хабр | GitHub

🔥49🏆4❤3👍1🥰1

8.43K viewsSergei Averkiev, 10:29

Градиент обреченный

🔺 Новые открытые LLM #ml_news

Очередная порция открытых языковых моделей за последние пару недель.

➕ Mistral 7B

Модель от одноименного французского стартапа, которая уверенно бьет на тестах Llama 2 13B. Из интересных особенностей — Sliding Window Attention (внимание модели направленно на k токенов назад, вместо всей последовательности), что позволяет ускорить инференс.

На днях вышел технический репорт, а команда Сайги из NLP сообщества дообучила модель на русских инструкциях, а также проверила её на русскоязычном бенчмарке Russian SuperGLUE, заняв первое место после решения задач людьми.

Благодаря сильному претрейну и переносу знаний между языками инструктивные версии Mistral'я неплохо генерируют текст на русском, за исключением того, что не имеют специфических знаний типа русских книг, пословиц и т.д. и на такие темы начинают галлюцинировать.

GitHub, HF

➕ StableLM 3B

Stability AI, подарившая нам модели для генерации картинок, выпустила открытую языковую модель StableLM-3B-4E1T, упор в которой сделан на количество токенов при обучении (модель "увидела" 4T токенов за 4 эпохи) и небольшой размер модели, что делает её удобной при инференсе.

По ней так же выпустили технический отчёт с графиками обучения. Данные для обучения брали публичные — RedefinedWeb, RedPajama, The Pile, а также код.

Исследователи делятся выводом о том, что в условии ограниченного количества данных, будет нормальным показывать ей их до 4-х раз, и это будет не сильно хуже, чем учить на том же количестве уникальных текстов. Мотивируют это наблюдение результатами и статьей.

GitHub, HF

🔥22👍6🏆3❤1⚡1

5.37K viewsSergei Averkiev, edited 10:50

About

Blog

Apps

Platform