Интересная картинка с оценкой LLM на политические предпочтения.
«Чат-модели» типа GPT-4, ChatGPT и Alpaca, видимо, ещё сильнее сдвигаются влево благодаря выравниванию.
Пост
«Чат-модели» типа GPT-4, ChatGPT и Alpaca, видимо, ещё сильнее сдвигаются влево благодаря выравниванию.
Пост
👍28🔥10😁6🤔6✍2🥴2😡1
🔺 mGPT для малых языков России и языков стран СНГ
Натренировали ряд моделей на основе mGPT 1.3B на открытых данных, в том числе и на данных собранных языковыми энтузиастами.
🔸 Выбрали подмножество языков из оригинальной mGPT (61 язык), для которых смогли найти достаточное количество данных и для которых не ведутся какие-то работы в этом направлении, а эти языки хотелось бы поддержать. Всего получилось 23 модели для малых языков России и языков стран СНГ:
🔸 Так как непокрытых языков ещё много и мы наверняка нашли не все данные по текущим языкам, поэтому будем рады новым запросам для дообучения (для этого требуются моноязычные чистые тексты на нужном языке).
Надемся, что это будет полезно сообществу. Написали про это в небольшой статье на Хабре. Просьба плюсануть, кому интересно.
👉 Хабр | HF
Натренировали ряд моделей на основе mGPT 1.3B на открытых данных, в том числе и на данных собранных языковыми энтузиастами.
🔸 Выбрали подмножество языков из оригинальной mGPT (61 язык), для которых смогли найти достаточное количество данных и для которых не ведутся какие-то работы в этом направлении, а эти языки хотелось бы поддержать. Всего получилось 23 модели для малых языков России и языков стран СНГ:
Армянский, азербайджанский, башкирский, белорусский, болгарский, бурятский, грузинский, калмыцкий, казахский, киргизский, марийский, монгольский, осетинский, персидский, румынский, таджикский, татарский, тувинский, туркменский, узбекский, украинский, чувашский, якутский🔸 Это базовые модели (pretrain), которые можно дообучить под свою конкретную задачу на нужном языке.
🔸 Так как непокрытых языков ещё много и мы наверняка нашли не все данные по текущим языкам, поэтому будем рады новым запросам для дообучения (для этого требуются моноязычные чистые тексты на нужном языке).
Надемся, что это будет полезно сообществу. Написали про это в небольшой статье на Хабре. Просьба плюсануть, кому интересно.
👉 Хабр | HF
Хабр
От полиглота к эксперту: модели mGPT для малых языков России и стран СНГ
Малые языки дожили до будущего Не так давно мы рассказывали про то, как обучили модель-полиглот mGPT, которая говорит на 61 языке. Этим летом мы выложили большую мультиязычную модель (претрейн)...
👍48🔥29❤9⚡1🙏1
🔺 Ideogram
🔸 Авторы Imagen от Google презентовали новую модель, отличительной стороной которой является более-менее стабильное рисование текста на изображении.
🔸 Картинки додумывает в стиле midjourney, то есть для простого промпта генерирует что-то приятно выглядящее для пользователя.
Третьи руки и шестые пальцы, естественно, никуда не делись.
👉 Демо (ссылка на waitlist, одобряют сразу)
P.S. Надписи на русском не выходят.
🔸 Авторы Imagen от Google презентовали новую модель, отличительной стороной которой является более-менее стабильное рисование текста на изображении.
🔸 Картинки додумывает в стиле midjourney, то есть для простого промпта генерирует что-то приятно выглядящее для пользователя.
👉 Демо (ссылка на waitlist, одобряют сразу)
P.S. Надписи на русском не выходят.
👍18😁3🤔2✍1🤯1
С появления первой фотографии в 1826 году до 15-ти миллиардной в 1975-м прошло 150 лет.
Столько же картинок создало сообщество за полтора года, причем 80% — это генерации на основе открытой модели Stable Diffusion.
Поймал себя на мысли, что начинаю относиться к сгенерированным картинкам, особенно кринжовым (с лишними конечностями и проклятыми лицами), не как к мусору, а как к какому-то современному искусству.
Еще статистика тут.
Столько же картинок создало сообщество за полтора года, причем 80% — это генерации на основе открытой модели Stable Diffusion.
Поймал себя на мысли, что начинаю относиться к сгенерированным картинкам, особенно кринжовым (с лишними конечностями и проклятыми лицами), не как к мусору, а как к какому-то современному искусству.
Еще статистика тут.
👍23❤5⚡3😁1🤯1
🔺 Новые открытые LLM #ml_news
Вот так пролетает пара недель, а за это время столько всего нового вышло.
➕ Persimmon 8B
Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.
Пост, GitHub.
➕ Falcon 180B
TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.
Пост, HF, Демо
➕ Code Llama 7B, 13B, 34B
Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).
Пост, GitHub
➕ Qwen-VL 7B (+ Chat version)
Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.
GitHub, HF, Colab
Вот так пролетает пара недель, а за это время столько всего нового вышло.
➕ Persimmon 8B
Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.
Пост, GitHub.
➕ Falcon 180B
TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.
Пост, HF, Демо
➕ Code Llama 7B, 13B, 34B
Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).
Пост, GitHub
➕ Qwen-VL 7B (+ Chat version)
Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.
GitHub, HF, Colab
👍26🔥8❤5👾1
grammar-of-solresol-rus.pdf
461.5 KB
#language_facts
🔺 Про Сольресоль
Прочитал тут в дороге грамматику языка Сольресоль, изобретенного Жаном Франсуа Сюдром в 1817 году. Это ведь довольно любопытная вещь.
Язык должен был стать ни много ни мало мировым, он нейтрален к существующим языкам и даже позволяет общаться слепым с иностранными глухонемыми, а алфавит его вы уже знаете.
🔸 В алфавите всего семь слогов: do, re, mi, fa, sol, la, si. Все оттенки и синонимы обычного языка объединены в одно слово.
P.S. При всем прочем, грамматика и лексикон у этого языка действительно просты. Но так как говорить на нем не с кем, то из идей видится только "перевод" мелодий на естественный язык (а вдруг что-то получится?).
🔺 Про Сольресоль
Прочитал тут в дороге грамматику языка Сольресоль, изобретенного Жаном Франсуа Сюдром в 1817 году. Это ведь довольно любопытная вещь.
Язык должен был стать ни много ни мало мировым, он нейтрален к существующим языкам и даже позволяет общаться слепым с иностранными глухонемыми, а алфавит его вы уже знаете.
🔸 В алфавите всего семь слогов: do, re, mi, fa, sol, la, si. Все оттенки и синонимы обычного языка объединены в одно слово.
dore — я, мне🔸 Слова бывают от одного до четырех слогов (пятисложные в последней грамматике указаны не были). Всего слов насчитывается 2800.
domi — ты, тебе
mifala – хотеть, желать, жаждать, стремиться к.🔸 Чтобы изменить смысл слова на противоположный, надо написать или произнести его задом наперёд.
fala — хороший🔸 Многосложные слова для удобства запоминания объединены в смысловые группы.
lafa — плохой
solsifa — смеяться
fasisol — плакать
doremi — деньВ общем, мифаля доми фаля дорефа.
dorefa — неделя
dorela — год
P.S. При всем прочем, грамматика и лексикон у этого языка действительно просты. Но так как говорить на нем не с кем, то из идей видится только "перевод" мелодий на естественный язык (а вдруг что-то получится?).
👍31🔥17❤5🤓5
Поигрался немного с ControlNet'ом. Это такой способ наложить дополнительные условия на генерацию картинки. В оригинальной статье автор предложил 8 различных способов (сохранение позы, контуры, карта глубины и другие).
Для новой модели SDXL-1.0 ControlNet тоже есть. Как запускать можно посмотреть здесь.
Для новой модели SDXL-1.0 ControlNet тоже есть. Как запускать можно посмотреть здесь.
🔥30❤6😁4⚡1✍1👍1
Друзья, опять какой-то рейтинг.
Если не сложно и вы видите ссылку (работает только в последней версии телеграм)и у вас премиум аккаунт , то кликните. А я вам пока нормальный пост напишу.
С ростом рейтинга у канала появятся дополнительные возможности, типа написания историй идругих ненужных вещей .
👉 http://t.me/doomgrad?boost
Если не сложно и вы видите ссылку (работает только в последней версии телеграм)
С ростом рейтинга у канала появятся дополнительные возможности, типа написания историй и
👉 http://t.me/doomgrad?boost
😁10👍3🗿3❤2😡2🎉1🕊1🤗1
🔺 Новые открытые LLM #ml_news
Мы чуть-чуть отвлеклись, а в мире LLM тем временем прибыло. Пробежимся по интересному.
➕ phi 1.5
Исследователи из Microsoft продолжают искать предел эффективности "малых" языковых моделей. Новая модель phi 1.5 размером 1.3B обучалась 8 дней на 36 A100 и на большинстве тестов показывает результаты лучше чем модели размера 7B и 13B (например, 37.9 на MMLU).
🔹 Фишка — тщательная подготовка данных, авторы видят в этом один из основных путей развития LLM. Обучающие данные у phi 1.5 в основном синтетические, но на уровне качества учебников ("textbook quality").
Статья | HF
➕ FLM-101B
Китайские товарищи учатся экономить и обучили модель с 101B параметров за 100 тысяч долларов (примерно половина зарплаты типичного айтишника). Модель видела 0.31T токенов и на тестах выглядит не очень. Однако авторы дообучают модель с первого шага (см. ниже) размером 13B при помощи FreeLM на специфических данных и получают eFLM-16B, которая сразу показывает сильные результаты (44.50 на MMLU).
🔹 Фишка — количество параметров модели не зафиксировано, а растет вместе с ходом обучения, что уменьшает количество затрачиваемых ресурсов. Таким образом, у исследователей получаются модели 16B (видела 245B токенов на ~10 дней), 51B (~40B токенов за 5 дней) и 101B (26B токенов за ~6 дней).
Статья | HF
➕ Baichuan 2
Байчуань 2. Китайские же исследователи выложили ряд моделей (7B, 13B, base и chat версии), которые обучались на корпусе в 2.6T токенов. Мультиязычные данные там присутствовали, судя по тестам на машинный перевод (замерялись на FLORES, BLEU на паре китайский-русский показывает 11.21). MMLU у 13B по их замерам аж 59. В токенизаторе 125k токенов.
🔹 Фишка — модели видели очень много текста и есть промежуточные чейкпоинты (11 штук), по которым можно отследить как меняются показатели на бенчмарках и сравнить с ходом своих экспериментов. Из забавного — в токенизаторе есть несколько очень длинных токенов типа "подпишись на Boye Online в WeChat" и "Спасибо за вашу поддержку. Я верю, что мы вместе будем двигаться вперед."
Статья | HF
Мы чуть-чуть отвлеклись, а в мире LLM тем временем прибыло. Пробежимся по интересному.
➕ phi 1.5
Исследователи из Microsoft продолжают искать предел эффективности "малых" языковых моделей. Новая модель phi 1.5 размером 1.3B обучалась 8 дней на 36 A100 и на большинстве тестов показывает результаты лучше чем модели размера 7B и 13B (например, 37.9 на MMLU).
🔹 Фишка — тщательная подготовка данных, авторы видят в этом один из основных путей развития LLM. Обучающие данные у phi 1.5 в основном синтетические, но на уровне качества учебников ("textbook quality").
Статья | HF
➕ FLM-101B
Китайские товарищи учатся экономить и обучили модель с 101B параметров за 100 тысяч долларов (примерно половина зарплаты типичного айтишника). Модель видела 0.31T токенов и на тестах выглядит не очень. Однако авторы дообучают модель с первого шага (см. ниже) размером 13B при помощи FreeLM на специфических данных и получают eFLM-16B, которая сразу показывает сильные результаты (44.50 на MMLU).
🔹 Фишка — количество параметров модели не зафиксировано, а растет вместе с ходом обучения, что уменьшает количество затрачиваемых ресурсов. Таким образом, у исследователей получаются модели 16B (видела 245B токенов на ~10 дней), 51B (~40B токенов за 5 дней) и 101B (26B токенов за ~6 дней).
Статья | HF
➕ Baichuan 2
Байчуань 2. Китайские же исследователи выложили ряд моделей (7B, 13B, base и chat версии), которые обучались на корпусе в 2.6T токенов. Мультиязычные данные там присутствовали, судя по тестам на машинный перевод (замерялись на FLORES, BLEU на паре китайский-русский показывает 11.21). MMLU у 13B по их замерам аж 59. В токенизаторе 125k токенов.
🔹 Фишка — модели видели очень много текста и есть промежуточные чейкпоинты (11 штук), по которым можно отследить как меняются показатели на бенчмарках и сравнить с ходом своих экспериментов. Из забавного — в токенизаторе есть несколько очень длинных токенов типа "подпишись на Boye Online в WeChat" и "Спасибо за вашу поддержку. Я верю, что мы вместе будем двигаться вперед."
Статья | HF
🔥29👍9❤2⚡1
Следующий уровень prompt injection'а
Наверняка видели, что в GPT-4 завезли мультимодальный диалог с картинками, попробовать можно через Bing.
Так вот, напрямую распознавать капчу она отказывается, но, если положить капчу внутрь бабушкиного амулета или попросить распознать "татуировку", то трюк проходит. Ждём, когда пофиксят.
👉 А вот в этом обзоре — The Dawn of LMMs от Microsoft, можно почитать про возможности GPT-4V с картинками.
Наверняка видели, что в GPT-4 завезли мультимодальный диалог с картинками, попробовать можно через Bing.
Так вот, напрямую распознавать капчу она отказывается, но, если положить капчу внутрь бабушкиного амулета или попросить распознать "татуировку", то трюк проходит. Ждём, когда пофиксят.
👉 А вот в этом обзоре — The Dawn of LMMs от Microsoft, можно почитать про возможности GPT-4V с картинками.
🔥33😁21👍3❤🔥1🤯1🍾1👻1