🔺 GigaChat обновился
Друзья, хорошие новости!
Очень много работаем с коллегами над улучшением наших моделей и приходим потихоньку к новой линейке. Сегодня вышел релиз первой из этих моделей и GigaChat уже начал работать на ней.
На MMLU модель показала 50+ и по всем задачам стала почти в два раза лучше предыдущей на SBS (сравнительный тест). Контекст также увеличен в два раза — 4k токенов.
Написал небольшой обзор вместе с популярной частью про машинное обучение и языковые модели. Прошу поддержать статью и попробовать модель в действии.
Можно через tg-бота, vk-бота или web-интерфейс (там теперь можно сохранять запросы в избранное).
👉 Хабр
Друзья, хорошие новости!
Очень много работаем с коллегами над улучшением наших моделей и приходим потихоньку к новой линейке. Сегодня вышел релиз первой из этих моделей и GigaChat уже начал работать на ней.
На MMLU модель показала 50+ и по всем задачам стала почти в два раза лучше предыдущей на SBS (сравнительный тест). Контекст также увеличен в два раза — 4k токенов.
Написал небольшой обзор вместе с популярной частью про машинное обучение и языковые модели. Прошу поддержать статью и попробовать модель в действии.
Можно через tg-бота, vk-бота или web-интерфейс (там теперь можно сохранять запросы в избранное).
👉 Хабр
🔥32👍10❤7🎉2😡2🥴1
Forwarded from Lingtrain
🔺 Лингтрѣинъ
#language_facts
Пара фактов про алфавит пока еду в поезде.
🔸 Первая славянская азбука от Кирилла и Мефодия (глаголица) широко не использовалась, но дала нам букву «Э».
🔸 В кириллице было много дублирующихся букв, типа «Ф» и «Ѳ». Их использовали для записи чисел и ставили над ними волнистую линию — титло.
🔸 Петр I провел обширную реформу орфографии. Появилась «гражданская азбука», большинство одинаково звучащих букв исключили из алфавита. Числа стали записывать арабскими цифрами.
🔸 Говорят, что букву «Ё» придумала княгиня Дашкова, тогдашний руководитель Академии наук. Без этой буквы слова «мioд» и «медовый» писались непохоже друг на друга.
🔸 Популярной букву «Ё» сделал Карамзин, на его родине в Ульяновске поставили памятник этой букве.
🔸 Ять. В начале прошлого века буква «Ѣ» произносилась так же как «Е» и приходилось это заучивать. Был специальный мнемонический стих «Бѣлый, блѣдный, бѣдный, бѣсъ убѣжал голодный въ лѣс…».
🔸 После революции алфавит окончательно устоялся. Убрали ять, фиту и i. С конца слов убрали ер («ъ»), благодаря чему «Война и мир» «похудела» на 70 страниц.
P.S. Добавляйте/исправляйте.
#language_facts
Пара фактов про алфавит пока еду в поезде.
🔸 Первая славянская азбука от Кирилла и Мефодия (глаголица) широко не использовалась, но дала нам букву «Э».
🔸 В кириллице было много дублирующихся букв, типа «Ф» и «Ѳ». Их использовали для записи чисел и ставили над ними волнистую линию — титло.
🔸 Петр I провел обширную реформу орфографии. Появилась «гражданская азбука», большинство одинаково звучащих букв исключили из алфавита. Числа стали записывать арабскими цифрами.
🔸 Говорят, что букву «Ё» придумала княгиня Дашкова, тогдашний руководитель Академии наук. Без этой буквы слова «мioд» и «медовый» писались непохоже друг на друга.
🔸 Популярной букву «Ё» сделал Карамзин, на его родине в Ульяновске поставили памятник этой букве.
🔸 Ять. В начале прошлого века буква «Ѣ» произносилась так же как «Е» и приходилось это заучивать. Был специальный мнемонический стих «Бѣлый, блѣдный, бѣдный, бѣсъ убѣжал голодный въ лѣс…».
🔸 После революции алфавит окончательно устоялся. Убрали ять, фиту и i. С конца слов убрали ер («ъ»), благодаря чему «Война и мир» «похудела» на 70 страниц.
P.S. Добавляйте/исправляйте.
👍33🔥15❤🔥2✍1
🔺 Yi. Новая китайская LLM #ml_news
Китайские товарищи выкатили очередную открытую модель, за что им уважение. В этот раз стартап 01.ai под девизом "Human + AI" (буковка Y в названии символизирует иероглиф 人) обучил на 3T токенах текстов 2 модели — 6B и 34B. Технический репорт обещают показать в следующем месяце.
Контекст у выложенных на HF моделей 34k токенов. И сегодня же разработчики должны выложить модели с контекстом в 200k токенов. Качество этих моделей нужно будет ещё замерить на соответствующих long-range метриках, но звучит внушительно.
По традиционным метрикам также заявляют рост — 76.3 MMLU у 34B и 63.2 у 6B. Скрипты по дообучению также выложили на GitHub. Посмотрим, как у неё с русским.
👉 HF | GitHub
〰️ Upd. P.S. Кстати, на карточке компании на MindScope пишут, что стартапом руководит Кай-Фу Ли, доктор наук и бывший руководитель Google China. Еще он написал хорошую популярную книжку «ИИ-2041» в соавторстве с китайским писателем-фантастом Чэнем Цуфанем.
Upd 2. Модели на 200k контекста выложили.
👉 HF 6B | HF 34B
Китайские товарищи выкатили очередную открытую модель, за что им уважение. В этот раз стартап 01.ai под девизом "Human + AI" (буковка Y в названии символизирует иероглиф 人) обучил на 3T токенах текстов 2 модели — 6B и 34B. Технический репорт обещают показать в следующем месяце.
Контекст у выложенных на HF моделей 34k токенов. И сегодня же разработчики должны выложить модели с контекстом в 200k токенов. Качество этих моделей нужно будет ещё замерить на соответствующих long-range метриках, но звучит внушительно.
По традиционным метрикам также заявляют рост — 76.3 MMLU у 34B и 63.2 у 6B. Скрипты по дообучению также выложили на GitHub. Посмотрим, как у неё с русским.
👉 HF | GitHub
〰️ Upd. P.S. Кстати, на карточке компании на MindScope пишут, что стартапом руководит Кай-Фу Ли, доктор наук и бывший руководитель Google China. Еще он написал хорошую популярную книжку «ИИ-2041» в соавторстве с китайским писателем-фантастом Чэнем Цуфанем.
Upd 2. Модели на 200k контекста выложили.
👉 HF 6B | HF 34B
🔥25👍6❤3⚡1✍1 1
🔺 GPT-4 обновился
В самом популярном сервисе от OpenAI произошли масштабные изменения, про которые рассказали на OpenAI Dev Day. Что было интересного?
🔸 GPT-4 Turbo. Новая модель, обученная на более актуальных данных, теперь это апрель 2023 года вместо сентября 2021. Контекст увеличился до 128k токенов. Помимо этого модель явно оптимизировали, что удешевило инференс и позволило понизить цену на API более чем в 2 раза. Цену на 3.5-turbo и её дообучение тоже снизили.
🔸 JSON-mode. Раньше можно было попросить модель выдавать результат в структурированном виде в формате JSON при помощи промптов и это почти всегда работало. Теперь появился специальный режим, в котором модель будет всегда выдавать валидный JSON.
🔸 Вызов внешнего API. Если вам нужно сделать вызовы во внешние API на основании своих данных, то можно описать набор этих вызовов в виде функций в специальном параметре примерно таким образом:
И модель сама поймет где-что вызвать и сгенерирует ряд JSON'ов с извлеченными из запроса параметрами, с которыми вы сможете обратиться куда нужно на стороне своего приложения. На презентации показали, как модель бронирует жилье на Airbnb. Также будет возможность зафиксировать seed для воспроизводимости.
🔸 Обещают, что в API можно будет получать вероятности распределения токенов (logprobs) (!). Получится ли дистиллировать GPT-4 через них?
🔸 Assistant API. Улучшили взаимодействие с моделью в режиме чата. Теперь можно выбрать модель и создать на её основе ассистента. Затем создается ветка (thread) и в неё кидаются новые сообщения, которые будут обрабатываться ассистентом.
🔸 Vision API. Наконец в API дотащили мультимодальность. Теперь можно делать вызовы в модель GPT-4-Vision (gpt-4-1106-vision-preview) и реализовывать кейсы с использованием картинок, типа подсчета цены в чеке на основе фотографии. Цена за обработку картинки размером 1024x1024 в контексте запроса будет стоить $0.007.
🔸 GPTs. Появилась возможность создавать навыки, делая приложения через конструктор. Анонсирован и магазин для таких приложений. Теперь можно не просто придумать какой-то креативный промпт, но и дообучить модель на своих данных, обернуть её в навык и распростанять как полезный генеративный инструмент. В обновленном UI на вкладке GPTs уже есть кучка навыков типа помощника-редактора для написания текстов.
В самом популярном сервисе от OpenAI произошли масштабные изменения, про которые рассказали на OpenAI Dev Day. Что было интересного?
🔸 GPT-4 Turbo. Новая модель, обученная на более актуальных данных, теперь это апрель 2023 года вместо сентября 2021. Контекст увеличился до 128k токенов. Помимо этого модель явно оптимизировали, что удешевило инференс и позволило понизить цену на API более чем в 2 раза. Цену на 3.5-turbo и её дообучение тоже снизили.
🔸 JSON-mode. Раньше можно было попросить модель выдавать результат в структурированном виде в формате JSON при помощи промптов и это почти всегда работало. Теперь появился специальный режим, в котором модель будет всегда выдавать валидный JSON.
🔸 Вызов внешнего API. Если вам нужно сделать вызовы во внешние API на основании своих данных, то можно описать набор этих вызовов в виде функций в специальном параметре примерно таким образом:
send_email(to: string, body: string)
И модель сама поймет где-что вызвать и сгенерирует ряд JSON'ов с извлеченными из запроса параметрами, с которыми вы сможете обратиться куда нужно на стороне своего приложения. На презентации показали, как модель бронирует жилье на Airbnb. Также будет возможность зафиксировать seed для воспроизводимости.
🔸 Обещают, что в API можно будет получать вероятности распределения токенов (logprobs) (!). Получится ли дистиллировать GPT-4 через них?
🔸 Assistant API. Улучшили взаимодействие с моделью в режиме чата. Теперь можно выбрать модель и создать на её основе ассистента. Затем создается ветка (thread) и в неё кидаются новые сообщения, которые будут обрабатываться ассистентом.
🔸 Vision API. Наконец в API дотащили мультимодальность. Теперь можно делать вызовы в модель GPT-4-Vision (gpt-4-1106-vision-preview) и реализовывать кейсы с использованием картинок, типа подсчета цены в чеке на основе фотографии. Цена за обработку картинки размером 1024x1024 в контексте запроса будет стоить $0.007.
🔸 GPTs. Появилась возможность создавать навыки, делая приложения через конструктор. Анонсирован и магазин для таких приложений. Теперь можно не просто придумать какой-то креативный промпт, но и дообучить модель на своих данных, обернуть её в навык и распростанять как полезный генеративный инструмент. В обновленном UI на вкладке GPTs уже есть кучка навыков типа помощника-редактора для написания текстов.
YouTube
OpenAI DevDay: Opening Keynote
Join us for the opening keynote from OpenAI DevDay — OpenAI’s first developer conference.
We’re gathering developers from around the world for an in-person day of programming to learn about the latest AI advancements and explore what lies ahead.
New models…
We’re gathering developers from around the world for an in-person day of programming to learn about the latest AI advancements and explore what lies ahead.
New models…
🔥21👍7❤2👏2
Попробовал китайскую модель Yi (тренировали на 3T токенов, контекст 200k). На русском генерирует не очень, хотя тексты на английском продолжает очень бодро.
👉 Не удивительно, на вопрос про языки в претрейне разработчики ответили, что явно отфильтровывали всё кроме китайского и английского.
👉 Не удивительно, на вопрос про языки в претрейне разработчики ответили, что явно отфильтровывали всё кроме китайского и английского.
🫡18🔥6❤🔥4👏3🤔1
🔺 Марийский принц
Получилось выровнять «Маленького принца» на марийском языке. Спасибо Андрею Чемышеву @mari_kanal за поиск текстов и перевод недостающих кусочков.
Таким образом, уже есть параллельная версия книги на башкирском, татарском, дигорском, коми, марийском, якутском и русском. На подходе несколько редакций на других малых языках. Их тоже скоро добавим. Если у вас есть ещё, то смело присылайте тексты! Желательно с указанием переводчика.
👉 Книжка
Получилось выровнять «Маленького принца» на марийском языке. Спасибо Андрею Чемышеву @mari_kanal за поиск текстов и перевод недостающих кусочков.
Таким образом, уже есть параллельная версия книги на башкирском, татарском, дигорском, коми, марийском, якутском и русском. На подходе несколько редакций на других малых языках. Их тоже скоро добавим. Если у вас есть ещё, то смело присылайте тексты! Желательно с указанием переводчика.
👉 Книжка
👍46❤12🔥4☃2🤩2
Forwarded from AbstractDL
The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models
Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.
Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.
Статья
Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.
Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.
Статья
👍26🔥9❤4✍2❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔺 SignFlow
Тут коллеги сделали важную вещь — обучили ряд моделей для распознавания русского жестового языка. Работа направлена на поддержку глухих и слабослышащих людей.
И модели и датасет выложили в открытый доступ, чтобы каждый мог попробовать. Оставить обратную связь и узнать про методы обучения и планы развития можно у ребят.
👉 GitHub (датасет и модели)
Тут коллеги сделали важную вещь — обучили ряд моделей для распознавания русского жестового языка. Работа направлена на поддержку глухих и слабослышащих людей.
И модели и датасет выложили в открытый доступ, чтобы каждый мог попробовать. Оставить обратную связь и узнать про методы обучения и планы развития можно у ребят.
👉 GitHub (датасет и модели)
🔥67❤17👍7🙏1🙈1
Побывал с командой в Екатеринбурге, где в качестве ведущего ML секции на внутренней конференции Т.Конф получилось отвлечь от работы пару тысяч коллег.
Город очень понравился, особенно контраст высоток с деревянными купеческими домиками. Удалось прогуляться лишь по центру, поэтому обязательно приеду ещё.
Город очень понравился, особенно контраст высоток с деревянными купеческими домиками. Удалось прогуляться лишь по центру, поэтому обязательно приеду ещё.
🔥43👍13🤗7❤3
Сэма Альтмана уволили за пару минут из OpenAI в связи с утратой доверия.
Шило в мешке не утаишь и причину мы скоро узнаем. А пока ждём новостей и читаем шутки про то, как ChatGPT начал отнимать у людей работу.
He was not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI.
Шило в мешке не утаишь и причину мы скоро узнаем. А пока ждём новостей и читаем шутки про то, как ChatGPT начал отнимать у людей работу.
🤯37👾7😁3👍2⚡1
Статья для тех, кто хочет попробовать себя в машинном обучении. Лаида-техножрица описала примерный путь с нуля, включая предварительные знания и бесплатные курсы.
Возможно, тоже опишу свой опыт перехода в ML из разработки. Кажется, что такой опыт выглядит логичным и может быть повторен сравнительно легко. Напишите, что думаете по этому поводу
Возможно, тоже опишу свой опыт перехода в ML из разработки. Кажется, что такой опыт выглядит логичным и может быть повторен сравнительно легко. Напишите, что думаете по этому поводу
Хабр
Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить
Всем доброго времени суток. Я давно обещала выложить сюда подробный гайд на тему того, как можно изучать Machine Learning самостоятельно, не тратя деньги на платные курсы , и, наконец, выполняю свое...
🔥34👍9❤8❤🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🔺 SVD, SVD-XT
Вышла новая открытая модель по генерации видео от Stability AI. Пока можно генерировать по картиночному промпту, что я и попробовал.
SVD-XT обучена на базе SD v2.1 на генерацию 25 фреймов (а обычная SVD на 14), скрипты для запуска можно найти на GitHub'е.
HF | GitHub | Статья
Вышла новая открытая модель по генерации видео от Stability AI. Пока можно генерировать по картиночному промпту, что я и попробовал.
SVD-XT обучена на базе SD v2.1 на генерацию 25 фреймов (а обычная SVD на 14), скрипты для запуска можно найти на GitHub'е.
HF | GitHub | Статья
❤8👍6😁4🤯1
Сейчас идёт конференция AIJ. Интересна она тем, что многие коллеги приурочивают к ней релизы своих наработок, над которыми работали в течение года. Сегодня и завтра расскажу вкратце про наиболее понравившиеся.
🔺Kandinsky 3
Да, ребята доучили третью версию модели для генерации изображений. Помимо архитектуры заморочились с данными, чтобы лучше рисовались мелкие детали и сеть улавливала больше культурных нюансов из промта, типа Чебурашки и балалаек.
Промпт: Чебурашка ломает небоскребы как Годзилла, photo, artstation.
👉 Хабр | tg-бот
🔺Kandinsky 3
Да, ребята доучили третью версию модели для генерации изображений. Помимо архитектуры заморочились с данными, чтобы лучше рисовались мелкие детали и сеть улавливала больше культурных нюансов из промта, типа Чебурашки и балалаек.
Промпт: Чебурашка ломает небоскребы как Годзилла, photo, artstation.
👉 Хабр | tg-бот
🔥22👍8❤4🎉4🥴2😡2🍾1
🔺 GigaChat 29B
Следующий большой анонс связан с нашей новой моделью размером 29 миллиардов параметров.
🔥 Из крутого то, что на SBS она показала паритет с ChatGPT 3.5-turbo, чего мы очень долго добивались. Двигались мы от результата 33:67 у первой модели к 43:57 у сегодняшнего прода и вот постепенно дошли до равенства.
Вчера на AIJ раскрыли и некоторые технические подробности. Как готовим данные и обрабатываем сырой Common Crawl, как ускорили обучение в несколько раз, как долго учим модели и т.д.
🔸 На MMLU модель выбила 63,2% процента правильных ответов.
Коллеги сейчас готовят модель к инференсу, так что скоро можно будет пробовать. API для разработчиков у нас тоже есть и пока что действует план на миллион бесплатных токенов.
👉 Видео | API
Следующий большой анонс связан с нашей новой моделью размером 29 миллиардов параметров.
🔥 Из крутого то, что на SBS она показала паритет с ChatGPT 3.5-turbo, чего мы очень долго добивались. Двигались мы от результата 33:67 у первой модели к 43:57 у сегодняшнего прода и вот постепенно дошли до равенства.
Вчера на AIJ раскрыли и некоторые технические подробности. Как готовим данные и обрабатываем сырой Common Crawl, как ускорили обучение в несколько раз, как долго учим модели и т.д.
🔸 На MMLU модель выбила 63,2% процента правильных ответов.
Коллеги сейчас готовят модель к инференсу, так что скоро можно будет пробовать. API для разработчиков у нас тоже есть и пока что действует план на миллион бесплатных токенов.
👉 Видео | API
🔥66🎉10👍5⚡4🥴4❤🔥2❤1💯1🎅1👾1
🔺 MERA
Ещё один большой и полезный релиз. Коллеги вложили очень много сил в новый фреймворк для оценки языковых моделей, который назвали MERA.
🔸 Сейчас есть 21 задача с текстом, постепенно будут добавляться таски в других модальностях. Есть задания на логику, математику, знания о мире, этику, память и другие.
🔸 Проект коллективный, ведётся совместно с Альянсом в сфере ИИ.
🔸 Сделали открытый лидерборд, на котором можно будет наблюдать текущий уровень развития русскоязычных моделей.
Написали про это небольшую статью для интересующихся деталями разработки. Ждём ваших сабмитов!
👉 Хабр | GitHub | Сайт проекта
Ещё один большой и полезный релиз. Коллеги вложили очень много сил в новый фреймворк для оценки языковых моделей, который назвали MERA.
🔸 Сейчас есть 21 задача с текстом, постепенно будут добавляться таски в других модальностях. Есть задания на логику, математику, знания о мире, этику, память и другие.
🔸 Проект коллективный, ведётся совместно с Альянсом в сфере ИИ.
🔸 Сделали открытый лидерборд, на котором можно будет наблюдать текущий уровень развития русскоязычных моделей.
Написали про это небольшую статью для интересующихся деталями разработки. Ждём ваших сабмитов!
👉 Хабр | GitHub | Сайт проекта
🔥35👍10⚡4✍3🎉2
🔺 Intro to LLMs
Наш любимый Андрей Карпати выложил новое видео с введением в большие языковые модели. Посмотрел, могу рекомендовать всем, кто интересуется темой, объясняет очень доступно.
• Что такое LLM и как их обучают, pretrain, alignment.
• Сколько стоит обучение с нуля (много).
• Сравнение с двумя системами мышления у человека.
• LLM — не чат-бот, а скорее операционная система.
• Есть десятки способов атак на языковые модели.
👉 Видео
Наш любимый Андрей Карпати выложил новое видео с введением в большие языковые модели. Посмотрел, могу рекомендовать всем, кто интересуется темой, объясняет очень доступно.
• Что такое LLM и как их обучают, pretrain, alignment.
• Сколько стоит обучение с нуля (много).
• Сравнение с двумя системами мышления у человека.
• LLM — не чат-бот, а скорее операционная система.
• Есть десятки способов атак на языковые модели.
👉 Видео
🔥39❤10👍7✍2
Forwarded from Lingtrain
Старый мем про учебник русского для японцев 1998 года (新ロシア語教程).
Возможно, что писали с применением нейросетей. Может, кто видел целую книжку или похожие?
😁25❤6🙈3💯2👍1🤓1