С появления первой фотографии в 1826 году до 15-ти миллиардной в 1975-м прошло 150 лет.
Столько же картинок создало сообщество за полтора года, причем 80% — это генерации на основе открытой модели Stable Diffusion.
Поймал себя на мысли, что начинаю относиться к сгенерированным картинкам, особенно кринжовым (с лишними конечностями и проклятыми лицами), не как к мусору, а как к какому-то современному искусству.
Еще статистика тут.
Столько же картинок создало сообщество за полтора года, причем 80% — это генерации на основе открытой модели Stable Diffusion.
Поймал себя на мысли, что начинаю относиться к сгенерированным картинкам, особенно кринжовым (с лишними конечностями и проклятыми лицами), не как к мусору, а как к какому-то современному искусству.
Еще статистика тут.
👍23❤5⚡3😁1🤯1
🔺 Новые открытые LLM #ml_news
Вот так пролетает пара недель, а за это время столько всего нового вышло.
➕ Persimmon 8B
Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.
Пост, GitHub.
➕ Falcon 180B
TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.
Пост, HF, Демо
➕ Code Llama 7B, 13B, 34B
Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).
Пост, GitHub
➕ Qwen-VL 7B (+ Chat version)
Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.
GitHub, HF, Colab
Вот так пролетает пара недель, а за это время столько всего нового вышло.
➕ Persimmon 8B
Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.
Пост, GitHub.
➕ Falcon 180B
TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.
Пост, HF, Демо
➕ Code Llama 7B, 13B, 34B
Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).
Пост, GitHub
➕ Qwen-VL 7B (+ Chat version)
Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.
GitHub, HF, Colab
👍26🔥8❤5👾1
grammar-of-solresol-rus.pdf
461.5 KB
#language_facts
🔺 Про Сольресоль
Прочитал тут в дороге грамматику языка Сольресоль, изобретенного Жаном Франсуа Сюдром в 1817 году. Это ведь довольно любопытная вещь.
Язык должен был стать ни много ни мало мировым, он нейтрален к существующим языкам и даже позволяет общаться слепым с иностранными глухонемыми, а алфавит его вы уже знаете.
🔸 В алфавите всего семь слогов: do, re, mi, fa, sol, la, si. Все оттенки и синонимы обычного языка объединены в одно слово.
P.S. При всем прочем, грамматика и лексикон у этого языка действительно просты. Но так как говорить на нем не с кем, то из идей видится только "перевод" мелодий на естественный язык (а вдруг что-то получится?).
🔺 Про Сольресоль
Прочитал тут в дороге грамматику языка Сольресоль, изобретенного Жаном Франсуа Сюдром в 1817 году. Это ведь довольно любопытная вещь.
Язык должен был стать ни много ни мало мировым, он нейтрален к существующим языкам и даже позволяет общаться слепым с иностранными глухонемыми, а алфавит его вы уже знаете.
🔸 В алфавите всего семь слогов: do, re, mi, fa, sol, la, si. Все оттенки и синонимы обычного языка объединены в одно слово.
dore — я, мне🔸 Слова бывают от одного до четырех слогов (пятисложные в последней грамматике указаны не были). Всего слов насчитывается 2800.
domi — ты, тебе
mifala – хотеть, желать, жаждать, стремиться к.🔸 Чтобы изменить смысл слова на противоположный, надо написать или произнести его задом наперёд.
fala — хороший🔸 Многосложные слова для удобства запоминания объединены в смысловые группы.
lafa — плохой
solsifa — смеяться
fasisol — плакать
doremi — деньВ общем, мифаля доми фаля дорефа.
dorefa — неделя
dorela — год
P.S. При всем прочем, грамматика и лексикон у этого языка действительно просты. Но так как говорить на нем не с кем, то из идей видится только "перевод" мелодий на естественный язык (а вдруг что-то получится?).
👍31🔥17❤5🤓5
Поигрался немного с ControlNet'ом. Это такой способ наложить дополнительные условия на генерацию картинки. В оригинальной статье автор предложил 8 различных способов (сохранение позы, контуры, карта глубины и другие).
Для новой модели SDXL-1.0 ControlNet тоже есть. Как запускать можно посмотреть здесь.
Для новой модели SDXL-1.0 ControlNet тоже есть. Как запускать можно посмотреть здесь.
🔥30❤6😁4⚡1✍1👍1
Друзья, опять какой-то рейтинг.
Если не сложно и вы видите ссылку (работает только в последней версии телеграм)и у вас премиум аккаунт , то кликните. А я вам пока нормальный пост напишу.
С ростом рейтинга у канала появятся дополнительные возможности, типа написания историй идругих ненужных вещей .
👉 http://t.me/doomgrad?boost
Если не сложно и вы видите ссылку (работает только в последней версии телеграм)
С ростом рейтинга у канала появятся дополнительные возможности, типа написания историй и
👉 http://t.me/doomgrad?boost
😁10👍3🗿3❤2😡2🎉1🕊1🤗1
🔺 Новые открытые LLM #ml_news
Мы чуть-чуть отвлеклись, а в мире LLM тем временем прибыло. Пробежимся по интересному.
➕ phi 1.5
Исследователи из Microsoft продолжают искать предел эффективности "малых" языковых моделей. Новая модель phi 1.5 размером 1.3B обучалась 8 дней на 36 A100 и на большинстве тестов показывает результаты лучше чем модели размера 7B и 13B (например, 37.9 на MMLU).
🔹 Фишка — тщательная подготовка данных, авторы видят в этом один из основных путей развития LLM. Обучающие данные у phi 1.5 в основном синтетические, но на уровне качества учебников ("textbook quality").
Статья | HF
➕ FLM-101B
Китайские товарищи учатся экономить и обучили модель с 101B параметров за 100 тысяч долларов (примерно половина зарплаты типичного айтишника). Модель видела 0.31T токенов и на тестах выглядит не очень. Однако авторы дообучают модель с первого шага (см. ниже) размером 13B при помощи FreeLM на специфических данных и получают eFLM-16B, которая сразу показывает сильные результаты (44.50 на MMLU).
🔹 Фишка — количество параметров модели не зафиксировано, а растет вместе с ходом обучения, что уменьшает количество затрачиваемых ресурсов. Таким образом, у исследователей получаются модели 16B (видела 245B токенов на ~10 дней), 51B (~40B токенов за 5 дней) и 101B (26B токенов за ~6 дней).
Статья | HF
➕ Baichuan 2
Байчуань 2. Китайские же исследователи выложили ряд моделей (7B, 13B, base и chat версии), которые обучались на корпусе в 2.6T токенов. Мультиязычные данные там присутствовали, судя по тестам на машинный перевод (замерялись на FLORES, BLEU на паре китайский-русский показывает 11.21). MMLU у 13B по их замерам аж 59. В токенизаторе 125k токенов.
🔹 Фишка — модели видели очень много текста и есть промежуточные чейкпоинты (11 штук), по которым можно отследить как меняются показатели на бенчмарках и сравнить с ходом своих экспериментов. Из забавного — в токенизаторе есть несколько очень длинных токенов типа "подпишись на Boye Online в WeChat" и "Спасибо за вашу поддержку. Я верю, что мы вместе будем двигаться вперед."
Статья | HF
Мы чуть-чуть отвлеклись, а в мире LLM тем временем прибыло. Пробежимся по интересному.
➕ phi 1.5
Исследователи из Microsoft продолжают искать предел эффективности "малых" языковых моделей. Новая модель phi 1.5 размером 1.3B обучалась 8 дней на 36 A100 и на большинстве тестов показывает результаты лучше чем модели размера 7B и 13B (например, 37.9 на MMLU).
🔹 Фишка — тщательная подготовка данных, авторы видят в этом один из основных путей развития LLM. Обучающие данные у phi 1.5 в основном синтетические, но на уровне качества учебников ("textbook quality").
Статья | HF
➕ FLM-101B
Китайские товарищи учатся экономить и обучили модель с 101B параметров за 100 тысяч долларов (примерно половина зарплаты типичного айтишника). Модель видела 0.31T токенов и на тестах выглядит не очень. Однако авторы дообучают модель с первого шага (см. ниже) размером 13B при помощи FreeLM на специфических данных и получают eFLM-16B, которая сразу показывает сильные результаты (44.50 на MMLU).
🔹 Фишка — количество параметров модели не зафиксировано, а растет вместе с ходом обучения, что уменьшает количество затрачиваемых ресурсов. Таким образом, у исследователей получаются модели 16B (видела 245B токенов на ~10 дней), 51B (~40B токенов за 5 дней) и 101B (26B токенов за ~6 дней).
Статья | HF
➕ Baichuan 2
Байчуань 2. Китайские же исследователи выложили ряд моделей (7B, 13B, base и chat версии), которые обучались на корпусе в 2.6T токенов. Мультиязычные данные там присутствовали, судя по тестам на машинный перевод (замерялись на FLORES, BLEU на паре китайский-русский показывает 11.21). MMLU у 13B по их замерам аж 59. В токенизаторе 125k токенов.
🔹 Фишка — модели видели очень много текста и есть промежуточные чейкпоинты (11 штук), по которым можно отследить как меняются показатели на бенчмарках и сравнить с ходом своих экспериментов. Из забавного — в токенизаторе есть несколько очень длинных токенов типа "подпишись на Boye Online в WeChat" и "Спасибо за вашу поддержку. Я верю, что мы вместе будем двигаться вперед."
Статья | HF
🔥29👍9❤2⚡1
Следующий уровень prompt injection'а
Наверняка видели, что в GPT-4 завезли мультимодальный диалог с картинками, попробовать можно через Bing.
Так вот, напрямую распознавать капчу она отказывается, но, если положить капчу внутрь бабушкиного амулета или попросить распознать "татуировку", то трюк проходит. Ждём, когда пофиксят.
👉 А вот в этом обзоре — The Dawn of LMMs от Microsoft, можно почитать про возможности GPT-4V с картинками.
Наверняка видели, что в GPT-4 завезли мультимодальный диалог с картинками, попробовать можно через Bing.
Так вот, напрямую распознавать капчу она отказывается, но, если положить капчу внутрь бабушкиного амулета или попросить распознать "татуировку", то трюк проходит. Ждём, когда пофиксят.
👉 А вот в этом обзоре — The Dawn of LMMs от Microsoft, можно почитать про возможности GPT-4V с картинками.
🔥33😁21👍3❤🔥1🤯1🍾1👻1
🔺 SAGE
Тут коллеги натренировали SOTA модели для коррекции орфографии.
В открытый доступ выложили сами модели, библиотеку sage, которая умеет исправлять и имитировать человеческие ошибки, а также вручную размеченные датасеты.
Hugging Face
• ruM2M100-1.2B
• ruM2M100-418M
• FredT5-large-spell
• T5-large-spell (английский язык)
👉 Ребята молодцы, можно прочитать про ход работ и результаты на Хабре.
Хабр | GitHub
Тут коллеги натренировали SOTA модели для коррекции орфографии.
В открытый доступ выложили сами модели, библиотеку sage, которая умеет исправлять и имитировать человеческие ошибки, а также вручную размеченные датасеты.
Hugging Face
• ruM2M100-1.2B
• ruM2M100-418M
• FredT5-large-spell
• T5-large-spell (английский язык)
👉 Ребята молодцы, можно прочитать про ход работ и результаты на Хабре.
Хабр | GitHub
🔥49🏆4❤3👍1🥰1
🔺 Новые открытые LLM #ml_news
Очередная порция открытых языковых моделей за последние пару недель.
➕ Mistral 7B
Модель от одноименного французского стартапа, которая уверенно бьет на тестах Llama 2 13B. Из интересных особенностей — Sliding Window Attention (внимание модели направленно на k токенов назад, вместо всей последовательности), что позволяет ускорить инференс.
На днях вышел технический репорт, а команда Сайги из NLP сообщества дообучила модель на русских инструкциях, а также проверила её на русскоязычном бенчмарке Russian SuperGLUE, заняв первое место после решения задач людьми.
Благодаря сильному претрейну и переносу знаний между языками инструктивные версии Mistral'я неплохо генерируют текст на русском, за исключением того, что не имеют специфических знаний типа русских книг, пословиц и т.д. и на такие темы начинают галлюцинировать.
GitHub, HF
➕ StableLM 3B
Stability AI, подарившая нам модели для генерации картинок, выпустила открытую языковую модель StableLM-3B-4E1T, упор в которой сделан на количество токенов при обучении (модель "увидела" 4T токенов за 4 эпохи) и небольшой размер модели, что делает её удобной при инференсе.
По ней так же выпустили технический отчёт с графиками обучения. Данные для обучения брали публичные — RedefinedWeb, RedPajama, The Pile, а также код.
Исследователи делятся выводом о том, что в условии ограниченного количества данных, будет нормальным показывать ей их до 4-х раз, и это будет не сильно хуже, чем учить на том же количестве уникальных текстов. Мотивируют это наблюдение результатами и статьей.
GitHub, HF
Очередная порция открытых языковых моделей за последние пару недель.
➕ Mistral 7B
Модель от одноименного французского стартапа, которая уверенно бьет на тестах Llama 2 13B. Из интересных особенностей — Sliding Window Attention (внимание модели направленно на k токенов назад, вместо всей последовательности), что позволяет ускорить инференс.
На днях вышел технический репорт, а команда Сайги из NLP сообщества дообучила модель на русских инструкциях, а также проверила её на русскоязычном бенчмарке Russian SuperGLUE, заняв первое место после решения задач людьми.
Благодаря сильному претрейну и переносу знаний между языками инструктивные версии Mistral'я неплохо генерируют текст на русском, за исключением того, что не имеют специфических знаний типа русских книг, пословиц и т.д. и на такие темы начинают галлюцинировать.
GitHub, HF
➕ StableLM 3B
Stability AI, подарившая нам модели для генерации картинок, выпустила открытую языковую модель StableLM-3B-4E1T, упор в которой сделан на количество токенов при обучении (модель "увидела" 4T токенов за 4 эпохи) и небольшой размер модели, что делает её удобной при инференсе.
По ней так же выпустили технический отчёт с графиками обучения. Данные для обучения брали публичные — RedefinedWeb, RedPajama, The Pile, а также код.
Исследователи делятся выводом о том, что в условии ограниченного количества данных, будет нормальным показывать ей их до 4-х раз, и это будет не сильно хуже, чем учить на том же количестве уникальных текстов. Мотивируют это наблюдение результатами и статьей.
GitHub, HF
🔥22👍6🏆3❤1⚡1