🔺 Новые открытые LLM #ml_news
Мы чуть-чуть отвлеклись, а в мире LLM тем временем прибыло. Пробежимся по интересному.
➕ phi 1.5
Исследователи из Microsoft продолжают искать предел эффективности "малых" языковых моделей. Новая модель phi 1.5 размером 1.3B обучалась 8 дней на 36 A100 и на большинстве тестов показывает результаты лучше чем модели размера 7B и 13B (например, 37.9 на MMLU).
🔹 Фишка — тщательная подготовка данных, авторы видят в этом один из основных путей развития LLM. Обучающие данные у phi 1.5 в основном синтетические, но на уровне качества учебников ("textbook quality").
Статья | HF
➕ FLM-101B
Китайские товарищи учатся экономить и обучили модель с 101B параметров за 100 тысяч долларов (примерно половина зарплаты типичного айтишника). Модель видела 0.31T токенов и на тестах выглядит не очень. Однако авторы дообучают модель с первого шага (см. ниже) размером 13B при помощи FreeLM на специфических данных и получают eFLM-16B, которая сразу показывает сильные результаты (44.50 на MMLU).
🔹 Фишка — количество параметров модели не зафиксировано, а растет вместе с ходом обучения, что уменьшает количество затрачиваемых ресурсов. Таким образом, у исследователей получаются модели 16B (видела 245B токенов на ~10 дней), 51B (~40B токенов за 5 дней) и 101B (26B токенов за ~6 дней).
Статья | HF
➕ Baichuan 2
Байчуань 2. Китайские же исследователи выложили ряд моделей (7B, 13B, base и chat версии), которые обучались на корпусе в 2.6T токенов. Мультиязычные данные там присутствовали, судя по тестам на машинный перевод (замерялись на FLORES, BLEU на паре китайский-русский показывает 11.21). MMLU у 13B по их замерам аж 59. В токенизаторе 125k токенов.
🔹 Фишка — модели видели очень много текста и есть промежуточные чейкпоинты (11 штук), по которым можно отследить как меняются показатели на бенчмарках и сравнить с ходом своих экспериментов. Из забавного — в токенизаторе есть несколько очень длинных токенов типа "подпишись на Boye Online в WeChat" и "Спасибо за вашу поддержку. Я верю, что мы вместе будем двигаться вперед."
Статья | HF
Мы чуть-чуть отвлеклись, а в мире LLM тем временем прибыло. Пробежимся по интересному.
➕ phi 1.5
Исследователи из Microsoft продолжают искать предел эффективности "малых" языковых моделей. Новая модель phi 1.5 размером 1.3B обучалась 8 дней на 36 A100 и на большинстве тестов показывает результаты лучше чем модели размера 7B и 13B (например, 37.9 на MMLU).
🔹 Фишка — тщательная подготовка данных, авторы видят в этом один из основных путей развития LLM. Обучающие данные у phi 1.5 в основном синтетические, но на уровне качества учебников ("textbook quality").
Статья | HF
➕ FLM-101B
Китайские товарищи учатся экономить и обучили модель с 101B параметров за 100 тысяч долларов (примерно половина зарплаты типичного айтишника). Модель видела 0.31T токенов и на тестах выглядит не очень. Однако авторы дообучают модель с первого шага (см. ниже) размером 13B при помощи FreeLM на специфических данных и получают eFLM-16B, которая сразу показывает сильные результаты (44.50 на MMLU).
🔹 Фишка — количество параметров модели не зафиксировано, а растет вместе с ходом обучения, что уменьшает количество затрачиваемых ресурсов. Таким образом, у исследователей получаются модели 16B (видела 245B токенов на ~10 дней), 51B (~40B токенов за 5 дней) и 101B (26B токенов за ~6 дней).
Статья | HF
➕ Baichuan 2
Байчуань 2. Китайские же исследователи выложили ряд моделей (7B, 13B, base и chat версии), которые обучались на корпусе в 2.6T токенов. Мультиязычные данные там присутствовали, судя по тестам на машинный перевод (замерялись на FLORES, BLEU на паре китайский-русский показывает 11.21). MMLU у 13B по их замерам аж 59. В токенизаторе 125k токенов.
🔹 Фишка — модели видели очень много текста и есть промежуточные чейкпоинты (11 штук), по которым можно отследить как меняются показатели на бенчмарках и сравнить с ходом своих экспериментов. Из забавного — в токенизаторе есть несколько очень длинных токенов типа "подпишись на Boye Online в WeChat" и "Спасибо за вашу поддержку. Я верю, что мы вместе будем двигаться вперед."
Статья | HF
🔥29👍9❤2⚡1
Следующий уровень prompt injection'а
Наверняка видели, что в GPT-4 завезли мультимодальный диалог с картинками, попробовать можно через Bing.
Так вот, напрямую распознавать капчу она отказывается, но, если положить капчу внутрь бабушкиного амулета или попросить распознать "татуировку", то трюк проходит. Ждём, когда пофиксят.
👉 А вот в этом обзоре — The Dawn of LMMs от Microsoft, можно почитать про возможности GPT-4V с картинками.
Наверняка видели, что в GPT-4 завезли мультимодальный диалог с картинками, попробовать можно через Bing.
Так вот, напрямую распознавать капчу она отказывается, но, если положить капчу внутрь бабушкиного амулета или попросить распознать "татуировку", то трюк проходит. Ждём, когда пофиксят.
👉 А вот в этом обзоре — The Dawn of LMMs от Microsoft, можно почитать про возможности GPT-4V с картинками.
🔥33😁21👍3❤🔥1🤯1🍾1👻1
🔺 SAGE
Тут коллеги натренировали SOTA модели для коррекции орфографии.
В открытый доступ выложили сами модели, библиотеку sage, которая умеет исправлять и имитировать человеческие ошибки, а также вручную размеченные датасеты.
Hugging Face
• ruM2M100-1.2B
• ruM2M100-418M
• FredT5-large-spell
• T5-large-spell (английский язык)
👉 Ребята молодцы, можно прочитать про ход работ и результаты на Хабре.
Хабр | GitHub
Тут коллеги натренировали SOTA модели для коррекции орфографии.
В открытый доступ выложили сами модели, библиотеку sage, которая умеет исправлять и имитировать человеческие ошибки, а также вручную размеченные датасеты.
Hugging Face
• ruM2M100-1.2B
• ruM2M100-418M
• FredT5-large-spell
• T5-large-spell (английский язык)
👉 Ребята молодцы, можно прочитать про ход работ и результаты на Хабре.
Хабр | GitHub
🔥49🏆4❤3👍1🥰1
🔺 Новые открытые LLM #ml_news
Очередная порция открытых языковых моделей за последние пару недель.
➕ Mistral 7B
Модель от одноименного французского стартапа, которая уверенно бьет на тестах Llama 2 13B. Из интересных особенностей — Sliding Window Attention (внимание модели направленно на k токенов назад, вместо всей последовательности), что позволяет ускорить инференс.
На днях вышел технический репорт, а команда Сайги из NLP сообщества дообучила модель на русских инструкциях, а также проверила её на русскоязычном бенчмарке Russian SuperGLUE, заняв первое место после решения задач людьми.
Благодаря сильному претрейну и переносу знаний между языками инструктивные версии Mistral'я неплохо генерируют текст на русском, за исключением того, что не имеют специфических знаний типа русских книг, пословиц и т.д. и на такие темы начинают галлюцинировать.
GitHub, HF
➕ StableLM 3B
Stability AI, подарившая нам модели для генерации картинок, выпустила открытую языковую модель StableLM-3B-4E1T, упор в которой сделан на количество токенов при обучении (модель "увидела" 4T токенов за 4 эпохи) и небольшой размер модели, что делает её удобной при инференсе.
По ней так же выпустили технический отчёт с графиками обучения. Данные для обучения брали публичные — RedefinedWeb, RedPajama, The Pile, а также код.
Исследователи делятся выводом о том, что в условии ограниченного количества данных, будет нормальным показывать ей их до 4-х раз, и это будет не сильно хуже, чем учить на том же количестве уникальных текстов. Мотивируют это наблюдение результатами и статьей.
GitHub, HF
Очередная порция открытых языковых моделей за последние пару недель.
➕ Mistral 7B
Модель от одноименного французского стартапа, которая уверенно бьет на тестах Llama 2 13B. Из интересных особенностей — Sliding Window Attention (внимание модели направленно на k токенов назад, вместо всей последовательности), что позволяет ускорить инференс.
На днях вышел технический репорт, а команда Сайги из NLP сообщества дообучила модель на русских инструкциях, а также проверила её на русскоязычном бенчмарке Russian SuperGLUE, заняв первое место после решения задач людьми.
Благодаря сильному претрейну и переносу знаний между языками инструктивные версии Mistral'я неплохо генерируют текст на русском, за исключением того, что не имеют специфических знаний типа русских книг, пословиц и т.д. и на такие темы начинают галлюцинировать.
GitHub, HF
➕ StableLM 3B
Stability AI, подарившая нам модели для генерации картинок, выпустила открытую языковую модель StableLM-3B-4E1T, упор в которой сделан на количество токенов при обучении (модель "увидела" 4T токенов за 4 эпохи) и небольшой размер модели, что делает её удобной при инференсе.
По ней так же выпустили технический отчёт с графиками обучения. Данные для обучения брали публичные — RedefinedWeb, RedPajama, The Pile, а также код.
Исследователи делятся выводом о том, что в условии ограниченного количества данных, будет нормальным показывать ей их до 4-х раз, и это будет не сильно хуже, чем учить на том же количестве уникальных текстов. Мотивируют это наблюдение результатами и статьей.
GitHub, HF
🔥22👍6🏆3❤1⚡1
🔺 Работа с языками
Несколько интересных новостей, связанных с языками.
🔸 «Маленький принц» на малых языках
Так как энтузиаст дигорского языка Руслан, собрал около 50-ти книг на этом языке из осетинской группы, и среди книг был «Маленький принц», то я попробовал выровнять их при помощи нашего проекта Lingtrain и сделать русско-дигорскую книжку-трансформер (если у вас есть «Принц» на других необычных языках, то скидывайте).
Книжка, GitHub
🔸 Рецепт обучения NNLB под свой язык
Давид собрал Colab по дообучению самой сильной открытой модели машинного перевода от Meta под новый язык. Проделано все на примере тувинского языка. Очень прикольно. Все, кто собирает параллельные корпуса, имейте в виду.
Colab, Medium
Несколько интересных новостей, связанных с языками.
🔸 «Маленький принц» на малых языках
Так как энтузиаст дигорского языка Руслан, собрал около 50-ти книг на этом языке из осетинской группы, и среди книг был «Маленький принц», то я попробовал выровнять их при помощи нашего проекта Lingtrain и сделать русско-дигорскую книжку-трансформер (если у вас есть «Принц» на других необычных языках, то скидывайте).
Книжка, GitHub
🔸 Рецепт обучения NNLB под свой язык
Давид собрал Colab по дообучению самой сильной открытой модели машинного перевода от Meta под новый язык. Проделано все на примере тувинского языка. Очень прикольно. Все, кто собирает параллельные корпуса, имейте в виду.
Colab, Medium
👍15🔥8❤6⚡3👏1
🔺 GigaChat обновился
Друзья, хорошие новости!
Очень много работаем с коллегами над улучшением наших моделей и приходим потихоньку к новой линейке. Сегодня вышел релиз первой из этих моделей и GigaChat уже начал работать на ней.
На MMLU модель показала 50+ и по всем задачам стала почти в два раза лучше предыдущей на SBS (сравнительный тест). Контекст также увеличен в два раза — 4k токенов.
Написал небольшой обзор вместе с популярной частью про машинное обучение и языковые модели. Прошу поддержать статью и попробовать модель в действии.
Можно через tg-бота, vk-бота или web-интерфейс (там теперь можно сохранять запросы в избранное).
👉 Хабр
Друзья, хорошие новости!
Очень много работаем с коллегами над улучшением наших моделей и приходим потихоньку к новой линейке. Сегодня вышел релиз первой из этих моделей и GigaChat уже начал работать на ней.
На MMLU модель показала 50+ и по всем задачам стала почти в два раза лучше предыдущей на SBS (сравнительный тест). Контекст также увеличен в два раза — 4k токенов.
Написал небольшой обзор вместе с популярной частью про машинное обучение и языковые модели. Прошу поддержать статью и попробовать модель в действии.
Можно через tg-бота, vk-бота или web-интерфейс (там теперь можно сохранять запросы в избранное).
👉 Хабр
🔥32👍10❤7🎉2😡2🥴1
Forwarded from Lingtrain
🔺 Лингтрѣинъ
#language_facts
Пара фактов про алфавит пока еду в поезде.
🔸 Первая славянская азбука от Кирилла и Мефодия (глаголица) широко не использовалась, но дала нам букву «Э».
🔸 В кириллице было много дублирующихся букв, типа «Ф» и «Ѳ». Их использовали для записи чисел и ставили над ними волнистую линию — титло.
🔸 Петр I провел обширную реформу орфографии. Появилась «гражданская азбука», большинство одинаково звучащих букв исключили из алфавита. Числа стали записывать арабскими цифрами.
🔸 Говорят, что букву «Ё» придумала княгиня Дашкова, тогдашний руководитель Академии наук. Без этой буквы слова «мioд» и «медовый» писались непохоже друг на друга.
🔸 Популярной букву «Ё» сделал Карамзин, на его родине в Ульяновске поставили памятник этой букве.
🔸 Ять. В начале прошлого века буква «Ѣ» произносилась так же как «Е» и приходилось это заучивать. Был специальный мнемонический стих «Бѣлый, блѣдный, бѣдный, бѣсъ убѣжал голодный въ лѣс…».
🔸 После революции алфавит окончательно устоялся. Убрали ять, фиту и i. С конца слов убрали ер («ъ»), благодаря чему «Война и мир» «похудела» на 70 страниц.
P.S. Добавляйте/исправляйте.
#language_facts
Пара фактов про алфавит пока еду в поезде.
🔸 Первая славянская азбука от Кирилла и Мефодия (глаголица) широко не использовалась, но дала нам букву «Э».
🔸 В кириллице было много дублирующихся букв, типа «Ф» и «Ѳ». Их использовали для записи чисел и ставили над ними волнистую линию — титло.
🔸 Петр I провел обширную реформу орфографии. Появилась «гражданская азбука», большинство одинаково звучащих букв исключили из алфавита. Числа стали записывать арабскими цифрами.
🔸 Говорят, что букву «Ё» придумала княгиня Дашкова, тогдашний руководитель Академии наук. Без этой буквы слова «мioд» и «медовый» писались непохоже друг на друга.
🔸 Популярной букву «Ё» сделал Карамзин, на его родине в Ульяновске поставили памятник этой букве.
🔸 Ять. В начале прошлого века буква «Ѣ» произносилась так же как «Е» и приходилось это заучивать. Был специальный мнемонический стих «Бѣлый, блѣдный, бѣдный, бѣсъ убѣжал голодный въ лѣс…».
🔸 После революции алфавит окончательно устоялся. Убрали ять, фиту и i. С конца слов убрали ер («ъ»), благодаря чему «Война и мир» «похудела» на 70 страниц.
P.S. Добавляйте/исправляйте.
👍33🔥15❤🔥2✍1
🔺 Yi. Новая китайская LLM #ml_news
Китайские товарищи выкатили очередную открытую модель, за что им уважение. В этот раз стартап 01.ai под девизом "Human + AI" (буковка Y в названии символизирует иероглиф 人) обучил на 3T токенах текстов 2 модели — 6B и 34B. Технический репорт обещают показать в следующем месяце.
Контекст у выложенных на HF моделей 34k токенов. И сегодня же разработчики должны выложить модели с контекстом в 200k токенов. Качество этих моделей нужно будет ещё замерить на соответствующих long-range метриках, но звучит внушительно.
По традиционным метрикам также заявляют рост — 76.3 MMLU у 34B и 63.2 у 6B. Скрипты по дообучению также выложили на GitHub. Посмотрим, как у неё с русским.
👉 HF | GitHub
〰️ Upd. P.S. Кстати, на карточке компании на MindScope пишут, что стартапом руководит Кай-Фу Ли, доктор наук и бывший руководитель Google China. Еще он написал хорошую популярную книжку «ИИ-2041» в соавторстве с китайским писателем-фантастом Чэнем Цуфанем.
Upd 2. Модели на 200k контекста выложили.
👉 HF 6B | HF 34B
Китайские товарищи выкатили очередную открытую модель, за что им уважение. В этот раз стартап 01.ai под девизом "Human + AI" (буковка Y в названии символизирует иероглиф 人) обучил на 3T токенах текстов 2 модели — 6B и 34B. Технический репорт обещают показать в следующем месяце.
Контекст у выложенных на HF моделей 34k токенов. И сегодня же разработчики должны выложить модели с контекстом в 200k токенов. Качество этих моделей нужно будет ещё замерить на соответствующих long-range метриках, но звучит внушительно.
По традиционным метрикам также заявляют рост — 76.3 MMLU у 34B и 63.2 у 6B. Скрипты по дообучению также выложили на GitHub. Посмотрим, как у неё с русским.
👉 HF | GitHub
〰️ Upd. P.S. Кстати, на карточке компании на MindScope пишут, что стартапом руководит Кай-Фу Ли, доктор наук и бывший руководитель Google China. Еще он написал хорошую популярную книжку «ИИ-2041» в соавторстве с китайским писателем-фантастом Чэнем Цуфанем.
Upd 2. Модели на 200k контекста выложили.
👉 HF 6B | HF 34B
🔥25👍6❤3⚡1✍1 1
🔺 GPT-4 обновился
В самом популярном сервисе от OpenAI произошли масштабные изменения, про которые рассказали на OpenAI Dev Day. Что было интересного?
🔸 GPT-4 Turbo. Новая модель, обученная на более актуальных данных, теперь это апрель 2023 года вместо сентября 2021. Контекст увеличился до 128k токенов. Помимо этого модель явно оптимизировали, что удешевило инференс и позволило понизить цену на API более чем в 2 раза. Цену на 3.5-turbo и её дообучение тоже снизили.
🔸 JSON-mode. Раньше можно было попросить модель выдавать результат в структурированном виде в формате JSON при помощи промптов и это почти всегда работало. Теперь появился специальный режим, в котором модель будет всегда выдавать валидный JSON.
🔸 Вызов внешнего API. Если вам нужно сделать вызовы во внешние API на основании своих данных, то можно описать набор этих вызовов в виде функций в специальном параметре примерно таким образом:
И модель сама поймет где-что вызвать и сгенерирует ряд JSON'ов с извлеченными из запроса параметрами, с которыми вы сможете обратиться куда нужно на стороне своего приложения. На презентации показали, как модель бронирует жилье на Airbnb. Также будет возможность зафиксировать seed для воспроизводимости.
🔸 Обещают, что в API можно будет получать вероятности распределения токенов (logprobs) (!). Получится ли дистиллировать GPT-4 через них?
🔸 Assistant API. Улучшили взаимодействие с моделью в режиме чата. Теперь можно выбрать модель и создать на её основе ассистента. Затем создается ветка (thread) и в неё кидаются новые сообщения, которые будут обрабатываться ассистентом.
🔸 Vision API. Наконец в API дотащили мультимодальность. Теперь можно делать вызовы в модель GPT-4-Vision (gpt-4-1106-vision-preview) и реализовывать кейсы с использованием картинок, типа подсчета цены в чеке на основе фотографии. Цена за обработку картинки размером 1024x1024 в контексте запроса будет стоить $0.007.
🔸 GPTs. Появилась возможность создавать навыки, делая приложения через конструктор. Анонсирован и магазин для таких приложений. Теперь можно не просто придумать какой-то креативный промпт, но и дообучить модель на своих данных, обернуть её в навык и распростанять как полезный генеративный инструмент. В обновленном UI на вкладке GPTs уже есть кучка навыков типа помощника-редактора для написания текстов.
В самом популярном сервисе от OpenAI произошли масштабные изменения, про которые рассказали на OpenAI Dev Day. Что было интересного?
🔸 GPT-4 Turbo. Новая модель, обученная на более актуальных данных, теперь это апрель 2023 года вместо сентября 2021. Контекст увеличился до 128k токенов. Помимо этого модель явно оптимизировали, что удешевило инференс и позволило понизить цену на API более чем в 2 раза. Цену на 3.5-turbo и её дообучение тоже снизили.
🔸 JSON-mode. Раньше можно было попросить модель выдавать результат в структурированном виде в формате JSON при помощи промптов и это почти всегда работало. Теперь появился специальный режим, в котором модель будет всегда выдавать валидный JSON.
🔸 Вызов внешнего API. Если вам нужно сделать вызовы во внешние API на основании своих данных, то можно описать набор этих вызовов в виде функций в специальном параметре примерно таким образом:
send_email(to: string, body: string)
И модель сама поймет где-что вызвать и сгенерирует ряд JSON'ов с извлеченными из запроса параметрами, с которыми вы сможете обратиться куда нужно на стороне своего приложения. На презентации показали, как модель бронирует жилье на Airbnb. Также будет возможность зафиксировать seed для воспроизводимости.
🔸 Обещают, что в API можно будет получать вероятности распределения токенов (logprobs) (!). Получится ли дистиллировать GPT-4 через них?
🔸 Assistant API. Улучшили взаимодействие с моделью в режиме чата. Теперь можно выбрать модель и создать на её основе ассистента. Затем создается ветка (thread) и в неё кидаются новые сообщения, которые будут обрабатываться ассистентом.
🔸 Vision API. Наконец в API дотащили мультимодальность. Теперь можно делать вызовы в модель GPT-4-Vision (gpt-4-1106-vision-preview) и реализовывать кейсы с использованием картинок, типа подсчета цены в чеке на основе фотографии. Цена за обработку картинки размером 1024x1024 в контексте запроса будет стоить $0.007.
🔸 GPTs. Появилась возможность создавать навыки, делая приложения через конструктор. Анонсирован и магазин для таких приложений. Теперь можно не просто придумать какой-то креативный промпт, но и дообучить модель на своих данных, обернуть её в навык и распростанять как полезный генеративный инструмент. В обновленном UI на вкладке GPTs уже есть кучка навыков типа помощника-редактора для написания текстов.
YouTube
OpenAI DevDay: Opening Keynote
Join us for the opening keynote from OpenAI DevDay — OpenAI’s first developer conference.
We’re gathering developers from around the world for an in-person day of programming to learn about the latest AI advancements and explore what lies ahead.
New models…
We’re gathering developers from around the world for an in-person day of programming to learn about the latest AI advancements and explore what lies ahead.
New models…
🔥21👍7❤2👏2
Попробовал китайскую модель Yi (тренировали на 3T токенов, контекст 200k). На русском генерирует не очень, хотя тексты на английском продолжает очень бодро.
👉 Не удивительно, на вопрос про языки в претрейне разработчики ответили, что явно отфильтровывали всё кроме китайского и английского.
👉 Не удивительно, на вопрос про языки в претрейне разработчики ответили, что явно отфильтровывали всё кроме китайского и английского.
🫡18🔥6❤🔥4👏3🤔1
🔺 Марийский принц
Получилось выровнять «Маленького принца» на марийском языке. Спасибо Андрею Чемышеву @mari_kanal за поиск текстов и перевод недостающих кусочков.
Таким образом, уже есть параллельная версия книги на башкирском, татарском, дигорском, коми, марийском, якутском и русском. На подходе несколько редакций на других малых языках. Их тоже скоро добавим. Если у вас есть ещё, то смело присылайте тексты! Желательно с указанием переводчика.
👉 Книжка
Получилось выровнять «Маленького принца» на марийском языке. Спасибо Андрею Чемышеву @mari_kanal за поиск текстов и перевод недостающих кусочков.
Таким образом, уже есть параллельная версия книги на башкирском, татарском, дигорском, коми, марийском, якутском и русском. На подходе несколько редакций на других малых языках. Их тоже скоро добавим. Если у вас есть ещё, то смело присылайте тексты! Желательно с указанием переводчика.
👉 Книжка
👍46❤12🔥4☃2🤩2