Градиент обреченный

Интересная картинка с оценкой LLM на политические предпочтения.

«Чат-модели» типа GPT-4, ChatGPT и Alpaca, видимо, ещё сильнее сдвигаются влево благодаря выравниванию.

Пост

👍28🔥10😁6🤔6✍2🥴2😡1

5.54K viewsSergei Averkiev, 05:35

Градиент обреченный

🔺 mGPT для малых языков России и языков стран СНГ

Натренировали ряд моделей на основе mGPT 1.3B на открытых данных, в том числе и на данных собранных языковыми энтузиастами.

🔸 Выбрали подмножество языков из оригинальной mGPT (61 язык), для которых смогли найти достаточное количество данных и для которых не ведутся какие-то работы в этом направлении, а эти языки хотелось бы поддержать. Всего получилось 23 модели для малых языков России и языков стран СНГ:

Армянский, азербайджанский, башкирский, белорусский, болгарский, бурятский, грузинский, калмыцкий, казахский, киргизский, марийский, монгольский, осетинский, персидский, румынский, таджикский, татарский, тувинский, туркменский, узбекский, украинский, чувашский, якутский

🔸 Это базовые модели (pretrain), которые можно дообучить под свою конкретную задачу на нужном языке.

🔸 Так как непокрытых языков ещё много и мы наверняка нашли не все данные по текущим языкам, поэтому будем рады новым запросам для дообучения (для этого требуются моноязычные чистые тексты на нужном языке).

Надемся, что это будет полезно сообществу. Написали про это в небольшой статье на Хабре. Просьба плюсануть, кому интересно.

👉 Хабр | HF

Хабр

От полиглота к эксперту: модели mGPT для малых языков России и стран СНГ

Малые языки дожили до будущего Не так давно мы рассказывали про то, как обучили модель-полиглот mGPT, которая говорит на 61 языке. Этим летом мы выложили большую мультиязычную модель (претрейн)...

👍48🔥29❤9⚡1🙏1

13.6K viewsSergei Averkiev, edited 10:04

Градиент обреченный

Благодаря новой модели для перевода от Meta, узнал, что же от меня всё время требует кошка.

Работает круто, а еще есть мультимодальные эмбеддинги SONAR (аудио-текст).

👉 Демо

😁47🔥10👍3❤‍🔥1

4.18K viewsSergei Averkiev, 15:34

Градиент обреченный

🔺 Ideogram

🔸 Авторы Imagen от Google презентовали новую модель, отличительной стороной которой является более-менее стабильное рисование текста на изображении.

🔸 Картинки додумывает в стиле midjourney, то есть для простого промпта генерирует что-то приятно выглядящее для пользователя.

Третьи руки и шестые пальцы, естественно, никуда не делись.

👉 Демо (ссылка на waitlist, одобряют сразу)

P.S. Надписи на русском не выходят.

👍18😁3🤔2✍1🤯1

4.18K viewsSergei Averkiev, edited 13:10

Градиент обреченный

С появления первой фотографии в 1826 году до 15-ти миллиардной в 1975-м прошло 150 лет.

Столько же картинок создало сообщество за полтора года, причем 80% — это генерации на основе открытой модели Stable Diffusion.

Поймал себя на мысли, что начинаю относиться к сгенерированным картинкам, особенно кринжовым (с лишними конечностями и проклятыми лицами), не как к мусору, а как к какому-то современному искусству.

Еще статистика тут.

👍23❤5⚡3😁1🤯1

4.5K viewsSergei Averkiev, 05:40

Градиент обреченный

🔺 Новые открытые LLM #ml_news

Вот так пролетает пара недель, а за это время столько всего нового вышло.

➕ Persimmon 8B

Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.

Пост, GitHub.

➕ Falcon 180B

TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.

Пост, HF, Демо

➕ Code Llama 7B, 13B, 34B

Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).

Пост, GitHub

➕ Qwen-VL 7B (+ Chat version)

Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.

GitHub, HF, Colab

👍26🔥8❤5👾1

18.5K viewsSergei Averkiev, edited 09:57

Градиент обреченный

grammar-of-solresol-rus.pdf

461.5 KB

#language_facts

🔺 Про Сольресоль

Прочитал тут в дороге грамматику языка Сольресоль, изобретенного Жаном Франсуа Сюдром в 1817 году. Это ведь довольно любопытная вещь.

Язык должен был стать ни много ни мало мировым, он нейтрален к существующим языкам и даже позволяет общаться слепым с иностранными глухонемыми, а алфавит его вы уже знаете.

🔸 В алфавите всего семь слогов: do, re, mi, fa, sol, la, si. Все оттенки и синонимы обычного языка объединены в одно слово.

dore — я, мне
domi — ты, тебе

🔸 Слова бывают от одного до четырех слогов (пятисложные в последней грамматике указаны не были). Всего слов насчитывается 2800.

mifala – хотеть, желать, жаждать, стремиться к.

🔸 Чтобы изменить смысл слова на противоположный, надо написать или произнести его задом наперёд.

fala — хороший
lafa — плохой
solsifa — смеяться
fasisol — плакать

🔸 Многосложные слова для удобства запоминания объединены в смысловые группы.

doremi — день 
dorefa — неделя
dorela — год

В общем, мифаля доми фаля дорефа.

P.S. При всем прочем, грамматика и лексикон у этого языка действительно просты. Но так как говорить на нем не с кем, то из идей видится только "перевод" мелодий на естественный язык (а вдруг что-то получится?).

👍31🔥17❤5🤓5

4.46K viewsSergei Averkiev, edited 06:42

Градиент обреченный

Поигрался немного с ControlNet'ом. Это такой способ наложить дополнительные условия на генерацию картинки. В оригинальной статье автор предложил 8 различных способов (сохранение позы, контуры, карта глубины и другие).

Для новой модели SDXL-1.0 ControlNet тоже есть. Как запускать можно посмотреть здесь.

🔥30❤6😁4⚡1✍1👍1

4.78K viewsSergei Averkiev, 07:55

Градиент обреченный

Как тебе такое, Кустодиев...

🔥47😁11❤6❤‍🔥2👍2😡1

5.77K viewsSergei Averkiev, 11:47

Градиент обреченный

Друзья, опять какой-то рейтинг.

Если не сложно и вы видите ссылку (работает только в последней версии телеграм) и у вас премиум аккаунт, то кликните. А я вам пока нормальный пост напишу.

С ростом рейтинга у канала появятся дополнительные возможности, типа написания историй и других ненужных вещей.

👉 http://t.me/doomgrad?boost

😁10👍3🗿3❤2😡2🎉1🕊1🤗1

3.74K viewsSergei Averkiev, 06:47

Градиент обреченный

🔺 Новые открытые LLM #ml_news

Мы чуть-чуть отвлеклись, а в мире LLM тем временем прибыло. Пробежимся по интересному.

➕ phi 1.5

Исследователи из Microsoft продолжают искать предел эффективности "малых" языковых моделей. Новая модель phi 1.5 размером 1.3B обучалась 8 дней на 36 A100 и на большинстве тестов показывает результаты лучше чем модели размера 7B и 13B (например, 37.9 на MMLU).

🔹 Фишка — тщательная подготовка данных, авторы видят в этом один из основных путей развития LLM. Обучающие данные у phi 1.5 в основном синтетические, но на уровне качества учебников ("textbook quality").

Статья | HF

➕ FLM-101B

Китайские товарищи учатся экономить и обучили модель с 101B параметров за 100 тысяч долларов (примерно половина зарплаты типичного айтишника). Модель видела 0.31T токенов и на тестах выглядит не очень. Однако авторы дообучают модель с первого шага (см. ниже) размером 13B при помощи FreeLM на специфических данных и получают eFLM-16B, которая сразу показывает сильные результаты (44.50 на MMLU).

🔹 Фишка — количество параметров модели не зафиксировано, а растет вместе с ходом обучения, что уменьшает количество затрачиваемых ресурсов. Таким образом, у исследователей получаются модели 16B (видела 245B токенов на ~10 дней), 51B (~40B токенов за 5 дней) и 101B (26B токенов за ~6 дней).

Статья | HF

➕ Baichuan 2

Байчуань 2. Китайские же исследователи выложили ряд моделей (7B, 13B, base и chat версии), которые обучались на корпусе в 2.6T токенов. Мультиязычные данные там присутствовали, судя по тестам на машинный перевод (замерялись на FLORES, BLEU на паре китайский-русский показывает 11.21). MMLU у 13B по их замерам аж 59. В токенизаторе 125k токенов.

🔹 Фишка — модели видели очень много текста и есть промежуточные чейкпоинты (11 штук), по которым можно отследить как меняются показатели на бенчмарках и сравнить с ходом своих экспериментов. Из забавного — в токенизаторе есть несколько очень длинных токенов типа "подпишись на Boye Online в WeChat" и "Спасибо за вашу поддержку. Я верю, что мы вместе будем двигаться вперед."

Статья | HF

🔥29👍9❤2⚡1

6.07K viewsSergei Averkiev, 09:24

Градиент обреченный

Когда тебе нужно время подумать

😁61🥴22💅9🔥3🤓2💯1

5.13K viewsSergei Averkiev, 09:05

Градиент обреченный

Следующий уровень prompt injection'а

Наверняка видели, что в GPT-4 завезли мультимодальный диалог с картинками, попробовать можно через Bing.

Так вот, напрямую распознавать капчу она отказывается, но, если положить капчу внутрь бабушкиного амулета или попросить распознать "татуировку", то трюк проходит. Ждём, когда пофиксят.

👉 А вот в этом обзоре — The Dawn of LMMs от Microsoft, можно почитать про возможности GPT-4V с картинками.