Релиз GigaChat MAX! (ссылка на Хабр)
Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).
- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.
Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.
Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов
Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).
- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.
Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.
Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов
Please open Telegram to view this post
VIEW IN TELEGRAM
Как устроена современная команда предобучения больших языковых моделей?
Создание современных больших языковых моделей, таких как GigaChat, GPT-4 и других, требует колоссальных вычислительных ресурсов и усилий целых инженерных команд. Например, обучение модели Llama 3 использует кластер из 24 576 GPU H100 (правда учили на 16384). Если вы захотите арендовать такой кластер, это обойдется примерно в $1,5-2 миллиона в день! В этом посте мы расскажем, какие задачи решают команды, занимающиеся предобучением (pretrain) языковых моделей, и почему их работа имеет критическое значение.
Есть набор очевидных задач, которыми занимаются все ML команды: это подготовка данных и настройка гиперпараметров модели. Но помимо этого, команда pretrain-ов работает над:
🔸 Проверкой гипотез по улучшению обучения: от введения новых стадий предобучения до поиска оптимального LR планировщика
🔸 Оптимизацией распределенного обучения
🔸 Профилированием и поиском узких мест
🔸 Тестированием новых архитектур
🔸 Мониторингом и оценкой качества обучения
Отдельное внимание уделяется оптимизации кодовой базы для обучения. На это сейчас нацелены все компании, использующие локальные LLM-модели. Некоторые из них даже продают инструменты для быстрого обучения (например, Unsloth).
Может показаться, что с учетом огромных инвестиций в область больших языковых моделей все уже давно оптимизировано. Однако отличным примером обратного является ускорение командой PyTorch одного из самых известных и используемых методов параллелизма - Tensor Parallel (TP).
Главная особенность ускорения в том, что теперь передача данных между узлами и вычисления на них выполняются одновременно, что существенно ускоряет процесс обучения. Вместо того чтобы ждать загрузки всех весов до начала вычислений, система может начать работу с части данных, параллельно подгружая остальные. Именно за счет этого новый метод получил название Async-TP.
Хотя подобный алгоритм обсуждался еще с 2022 года, его эффективная реализация на CUDA была непростой задачей. Предлагаем вам ознакомиться с полным блог-постом, если интересны технические детали.
PyTorch-реализация асинхронного тензорного параллелизма Async-TP позволила:
• Ускорить прямой проход (forward pass) на 29%
• Повысить общую скорость обучения модели Llama 3 7B на 8%
Async-TP использует CUDA P2P для оптимизации передачи данных. При наличии NVSwitch это позволяет практически полностью скрыть задержки межгрупповых коммуникаций.
Поздравляем коллег из PyTorch с этим замечательным результатом! Такие оптимизации критически важны — без них обучение даже базовых моделей растянулось бы на многие годы и стоило бы кратно дороже, чем сейчас.
Мы в GigaChat уделяем много времени оптимизациям обучения и расскажем о том, где и как их применяем, в следующих постах! 🚀
Создание современных больших языковых моделей, таких как GigaChat, GPT-4 и других, требует колоссальных вычислительных ресурсов и усилий целых инженерных команд. Например, обучение модели Llama 3 использует кластер из 24 576 GPU H100 (правда учили на 16384). Если вы захотите арендовать такой кластер, это обойдется примерно в $1,5-2 миллиона в день! В этом посте мы расскажем, какие задачи решают команды, занимающиеся предобучением (pretrain) языковых моделей, и почему их работа имеет критическое значение.
Есть набор очевидных задач, которыми занимаются все ML команды: это подготовка данных и настройка гиперпараметров модели. Но помимо этого, команда pretrain-ов работает над:
🔸 Проверкой гипотез по улучшению обучения: от введения новых стадий предобучения до поиска оптимального LR планировщика
🔸 Оптимизацией распределенного обучения
🔸 Профилированием и поиском узких мест
🔸 Тестированием новых архитектур
🔸 Мониторингом и оценкой качества обучения
Отдельное внимание уделяется оптимизации кодовой базы для обучения. На это сейчас нацелены все компании, использующие локальные LLM-модели. Некоторые из них даже продают инструменты для быстрого обучения (например, Unsloth).
Может показаться, что с учетом огромных инвестиций в область больших языковых моделей все уже давно оптимизировано. Однако отличным примером обратного является ускорение командой PyTorch одного из самых известных и используемых методов параллелизма - Tensor Parallel (TP).
Главная особенность ускорения в том, что теперь передача данных между узлами и вычисления на них выполняются одновременно, что существенно ускоряет процесс обучения. Вместо того чтобы ждать загрузки всех весов до начала вычислений, система может начать работу с части данных, параллельно подгружая остальные. Именно за счет этого новый метод получил название Async-TP.
Хотя подобный алгоритм обсуждался еще с 2022 года, его эффективная реализация на CUDA была непростой задачей. Предлагаем вам ознакомиться с полным блог-постом, если интересны технические детали.
PyTorch-реализация асинхронного тензорного параллелизма Async-TP позволила:
• Ускорить прямой проход (forward pass) на 29%
• Повысить общую скорость обучения модели Llama 3 7B на 8%
Async-TP использует CUDA P2P для оптимизации передачи данных. При наличии NVSwitch это позволяет практически полностью скрыть задержки межгрупповых коммуникаций.
Поздравляем коллег из PyTorch с этим замечательным результатом! Такие оптимизации критически важны — без них обучение даже базовых моделей растянулось бы на многие годы и стоило бы кратно дороже, чем сейчас.
Мы в GigaChat уделяем много времени оптимизациям обучения и расскажем о том, где и как их применяем, в следующих постах! 🚀
PyTorch Forums
[Distributed w/ TorchTitan] Introducing Async Tensor Parallelism in PyTorch
with Horace He, Less Wright, Luca Wehrstedt, Tianyu Liu, Wanchao Liang TL;DR We implemented experimental async tensor parallelism support in PyTorch. We integrated it in TorchTitan and observed: Up to ~29% forward pass speedup and ~8% E2E speedup in Llama3…
📢 Обновления в GigaChat: Улучшенная работа с документами!
Разрабатывая взаимодействие GigaСhat с документами, мы:
✨ расширили внутренние пайплайны и наборы инструментов работы с документами. В результате в GigaChat появилась поддержка новых форматов — теперь вы можете работать с файлами формата
✨ изменили и оптимизировали внутреннюю архитектуру работы с документами, благодаря чему увеличили скорость обработки больших документов.
✨ добавили работу с документами во все внешние интерфейсы GigaChat. Обновления уже доступны в наших продуктах для бизнеса, включая GigaChat API, а также в веб версиях и приложениях Telegram и VK.
Об этом и о том, как мы работаем с документами для GigaChat, можно посмотреть в небольшой заметке на telegra.ph.
Попробуйте работу GigaChat с документами прямо сейчас и делитесь своим опытом использования обновленного сервиса! 😊
Разрабатывая взаимодействие GigaСhat с документами, мы:
✨ расширили внутренние пайплайны и наборы инструментов работы с документами. В результате в GigaChat появилась поддержка новых форматов — теперь вы можете работать с файлами формата
.txt
, .pdf
, .doc
, .docx
и .epub
. Скоро будет доступна поддержка .pptx
.✨ изменили и оптимизировали внутреннюю архитектуру работы с документами, благодаря чему увеличили скорость обработки больших документов.
✨ добавили работу с документами во все внешние интерфейсы GigaChat. Обновления уже доступны в наших продуктах для бизнеса, включая GigaChat API, а также в веб версиях и приложениях Telegram и VK.
Об этом и о том, как мы работаем с документами для GigaChat, можно посмотреть в небольшой заметке на telegra.ph.
Попробуйте работу GigaChat с документами прямо сейчас и делитесь своим опытом использования обновленного сервиса! 😊
Telegraph
📄 GigaChat: Новые возможности и улучшения работы с документами
Мы рады сообщить, что в GigaChat теперь доступны новые функции для работы с документами! 🎉 ✨ Поддержка новых форматов: Теперь вы можете работать с файлами формата .txt, .pdf, .doc, .docx и .epub. Скоро будет доступна поддержка .pptx. 👥 Доступность: Эти обновления…
Салют, GigaChat! Технологии искусственного интеллекта
Приглашаем всех инженеров и разработчиков, которые работают с ML/AI, на нашу конференцию.
📆 17 декабря, 12:30 (МСК, GMT+3)
📍 Офлайн в Москве и онлайн по всей России
В программе 9 докладов о трёх направлениях нашей разработки: Text, Vision и Audio.
Вы узнаете, как настраивать среду разработки и создавать ИИ-агентов, подключаемых к реальному миру. Работать с моделями на этапах pretrain, alignment, fine-tuning. Увидите новые фреймворки и подходы к обучению LLM синтезировать речь, воспринимать звуковую и визуальную информацию. Узнаете о способах лучше фильтровать данные, работать с длинным контекстом, быстро обучать очень большие модели. И всё это на примере новых и самых мощных моделей GigaChat.
Это далеко не весь перечень тем, подробная программа и регистрация уже на сайте.
Количество мест в офлайне ограничено. Для участия нужно зарегистрироваться и дождаться, когда вам придёт письмо-приглашение.
➡ Зарегистрироваться
Ждём ваши заявки и до встречи!
Приглашаем всех инженеров и разработчиков, которые работают с ML/AI, на нашу конференцию.
В программе 9 докладов о трёх направлениях нашей разработки: Text, Vision и Audio.
Вы узнаете, как настраивать среду разработки и создавать ИИ-агентов, подключаемых к реальному миру. Работать с моделями на этапах pretrain, alignment, fine-tuning. Увидите новые фреймворки и подходы к обучению LLM синтезировать речь, воспринимать звуковую и визуальную информацию. Узнаете о способах лучше фильтровать данные, работать с длинным контекстом, быстро обучать очень большие модели. И всё это на примере новых и самых мощных моделей GigaChat.
Это далеко не весь перечень тем, подробная программа и регистрация уже на сайте.
Количество мест в офлайне ограничено. Для участия нужно зарегистрироваться и дождаться, когда вам придёт письмо-приглашение.
Ждём ваши заявки и до встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
GigaAM-v2: лучшая открытая модель для распознания речи на русском языке с возможностью коммерческого использования!
СКАЧАТЬ➡️ ➡️ ➡️ GitHub | GitVerse
В апреле мы опубликовали GigaAM (Giga Acoustic Model) — фундаментальную акустическую модель, основанную на архитектуре Conformer и фреймворке обучения wav2vec2.0. Модель GigaAM была обучена на аудиозаписях на русском языке, что позволило показать отличное качество при дообучении на задачу распознавания речи: GigaAM-CTC показывает Word Error Rate, в среднем, на 38% ниже по сравнению с Whisper-large-v3 на коротких аудиозаписях на русском языке. Подробнее про устройство моделей и подходы к предобучению мы рассказывали в статье на Хабр.
В мае мы обновили семейство моделей, обучив GigaAM-RNNT — модель распознавания речи с авторегрессивным декодером. GigaAM-RNNT стала новой state-of-the-art моделью среди открытых альтернатив по нашим и независимым оценкам. Разрыв в Word Error Rate по сравнению с OpenAI Whisper увеличился до 43%. Технический доклад на DataFest об устройстве этой модели доступен по ссылке.
От сообщества поступало большое количество запросов на коммерческое применение наших моделей, удобство использования и конвертацию графов моделей в популярные фреймворки инференса.
Поэтому сегодня мы делимся большим обновлением: GigaAM-v2
🔘 модели стали доступны с MIT лицензией, которая допускает коммерческое использование
🔘 мы улучшили процесс подготовки данных и подход к предобучению, что позволило дополнительно снизить Word Error Rate моделей распознавания: GigaAM-RNNT-v2 опережает OpenAI Whisper на 48%
🔘 для простоты использования мы избавились от зависимостей NeMo-фреймворка, который использовался для обучения
🔘 добавилась поддержка конвертации в ONNX одной строкой
➡️ О технических деталях подготовки GigaAM-v2, применении подобных моделей для end-to-end понимания речи в GigaChat, ablation studies и невзлетевших экспериментах мы расскажем на конференции Салют, GigaChat! Технологии искусственного интеллекта. Не пропустите!
Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot
СКАЧАТЬ
В апреле мы опубликовали GigaAM (Giga Acoustic Model) — фундаментальную акустическую модель, основанную на архитектуре Conformer и фреймворке обучения wav2vec2.0. Модель GigaAM была обучена на аудиозаписях на русском языке, что позволило показать отличное качество при дообучении на задачу распознавания речи: GigaAM-CTC показывает Word Error Rate, в среднем, на 38% ниже по сравнению с Whisper-large-v3 на коротких аудиозаписях на русском языке. Подробнее про устройство моделей и подходы к предобучению мы рассказывали в статье на Хабр.
В мае мы обновили семейство моделей, обучив GigaAM-RNNT — модель распознавания речи с авторегрессивным декодером. GigaAM-RNNT стала новой state-of-the-art моделью среди открытых альтернатив по нашим и независимым оценкам. Разрыв в Word Error Rate по сравнению с OpenAI Whisper увеличился до 43%. Технический доклад на DataFest об устройстве этой модели доступен по ссылке.
От сообщества поступало большое количество запросов на коммерческое применение наших моделей, удобство использования и конвертацию графов моделей в популярные фреймворки инференса.
Поэтому сегодня мы делимся большим обновлением: GigaAM-v2
Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Николай из группы Распознавание и синтез речи очень оперативно провел сравнение разных Open-Source моделей после выхода GigaAM-v2. Спасибо!
Forwarded from Nikolay V. Shmyrev
Обновил результаты c GigaAMv2. Хорошее обновление, хорошо стало редкие слова распознавать.
Уже через пару часов начнётся конференция Салют, GigaChat!
Ждём всех, кто зарегистрировался на офлайн часть с 11:30 в Воробьёвы Холл по адресу: г. Москва, ул. Косыгина д.28, стр.1
Онлайн участникам нужно авторизоваться в Личном кабинете JUG Ru Group. Это можно сделать прямо на сайте конференции по кнопке в плеере.
Подробности в канале конференции.
Если ещё не успели зарегистрироваться, но хотите послушать доклады онлайн, переходите на сайт и заполняйте заявку на онлайн участие: ссылка на трансляцию придёт в течение нескольких минут.
До встречи!
Ждём всех, кто зарегистрировался на офлайн часть с 11:30 в Воробьёвы Холл по адресу: г. Москва, ул. Косыгина д.28, стр.1
Онлайн участникам нужно авторизоваться в Личном кабинете JUG Ru Group. Это можно сделать прямо на сайте конференции по кнопке в плеере.
Подробности в канале конференции.
Если ещё не успели зарегистрироваться, но хотите послушать доклады онлайн, переходите на сайт и заполняйте заявку на онлайн участие: ссылка на трансляцию придёт в течение нескольких минут.
До встречи!
Релиз Giga-Embeddings-instruct! (ссылка на hugging-face)
Мы выложили в открытый доступ эмбеддинг модель Giga-Embeddings-instruct.
Giga-Embeddings-instruct занимает 2-ое(*) место в бенчмарке ruMTEB. Следующая после нас модель это e5-mistral-7b-instruct, которая имеет в 3 раза больше параметров (~7Б у mistral, –2.5B у нас).
Размер контекста модели 4096. Более 60 различных источников данных были использованы для обучения модели. Модель можно использовать для всех типов дискриминативных задач – классификация, поиск, ранжирование, и т.д.
За основу мы взяли GigaChat-pretrain-3B, заменили внимание с decoder на encoder, в качестве агрегации использовали Latent Attention Pooling.
(*) Модель на первом месте пока не выложена в опенсорс на момент написания поста 27.12.
Мы выложили в открытый доступ эмбеддинг модель Giga-Embeddings-instruct.
Giga-Embeddings-instruct занимает 2-ое(*) место в бенчмарке ruMTEB. Следующая после нас модель это e5-mistral-7b-instruct, которая имеет в 3 раза больше параметров (~7Б у mistral, –2.5B у нас).
Размер контекста модели 4096. Более 60 различных источников данных были использованы для обучения модели. Модель можно использовать для всех типов дискриминативных задач – классификация, поиск, ранжирование, и т.д.
За основу мы взяли GigaChat-pretrain-3B, заменили внимание с decoder на encoder, в качестве агрегации использовали Latent Attention Pooling.
(*) Модель на первом месте пока не выложена в опенсорс на момент написания поста 27.12.
huggingface.co
ai-sage/Giga-Embeddings-instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Салют, GigaDev!
Команда GigaChat поздравляет всех с приходящим Новым Годом! За этот год мы сделали очень многое, чтобы развивать ИИ, и надеемся, что в следующем году сможем сделать еще больше. Спасибо всем, кто работал с нами и кто пользуется GigaChat, все это ради Вас!
Перед праздниками хотим поделиться записями докладов с прошедшей 17 декабрая конференции "Салют, GigaChat!".
1. GigaChain: создание AI-агентов на практике
2. Как научить LLM слышать: GigaAM 🤝 GigaChat Audio
3. Новости команды TTS SberDevices
4. Зрение в GigaChat
5. От теории к практике: построение надежного LLM-сервиса
6. GigaChat.Pretrain
7. GigaChat.Alignment
8. Эмбеддинги на GigaChat
9. Ассистент на LLM
Спасибо всем за этот чудесный год и хороших Вам праздников!
Команда GigaChat поздравляет всех с приходящим Новым Годом! За этот год мы сделали очень многое, чтобы развивать ИИ, и надеемся, что в следующем году сможем сделать еще больше. Спасибо всем, кто работал с нами и кто пользуется GigaChat, все это ради Вас!
Перед праздниками хотим поделиться записями докладов с прошедшей 17 декабрая конференции "Салют, GigaChat!".
1. GigaChain: создание AI-агентов на практике
2. Как научить LLM слышать: GigaAM 🤝 GigaChat Audio
3. Новости команды TTS SberDevices
4. Зрение в GigaChat
5. От теории к практике: построение надежного LLM-сервиса
6. GigaChat.Pretrain
7. GigaChat.Alignment
8. Эмбеддинги на GigaChat
9. Ассистент на LLM
Спасибо всем за этот чудесный год и хороших Вам праздников!
YouTube
Салют, GigaChat
Конференция команды разработки GigaChat про технологии искусственного интеллекта
🚀 Релиз новой модели GigaChat-20B-A3B-instruct-v1.5!
Представляем обновленную версию с улучшенным alignment, что привело к значительному росту метрик арен
📈 Результаты:
• Arena Hard RU: 20.8 → 29.6 (+8.8)
• Arena General: 41.1 → 49.1 (+8)
• остальные метрики на тех же значениях
🔋 Поддержка контекста: 131К токенов
🎉 Важно! Модель теперь доступна в популярных инструментах:
• llama.cpp
• ollama
• llama-cpp-python
• lm-studio, небольшой гайд.
⚡️ На М4 Pro в Q6 достигает 52 token / sec
💾 Мы подготовили различные GGUF квантизации для тестирования под разные задачи и ресурсы.
🔗 Ссылки:
• HuggingFace (fp32, bf16, int8)
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)
Представляем обновленную версию с улучшенным alignment, что привело к значительному росту метрик арен
📈 Результаты:
• Arena Hard RU: 20.8 → 29.6 (+8.8)
• Arena General: 41.1 → 49.1 (+8)
• остальные метрики на тех же значениях
🔋 Поддержка контекста: 131К токенов
🎉 Важно! Модель теперь доступна в популярных инструментах:
• llama.cpp
• ollama
• llama-cpp-python
• lm-studio, небольшой гайд.
⚡️ На М4 Pro в Q6 достигает 52 token / sec
💾 Мы подготовили различные GGUF квантизации для тестирования под разные задачи и ресурсы.
🔗 Ссылки:
• HuggingFace (fp32, bf16, int8)
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)
Forwarded from Al Talent Hub
30 мин до Open Talks Special – раскрываем карты!
🦇 Наш секретный гость:
Гриша Лелейтнер, Head of ML, LLM в GigaChat [Сбер].
Обсудим open-source LLM на русском и как DeepSeek меняет правила игры. На твои вопросы ответят эксперты, которые не просто знают, а создают русскоязычные LLM на практике.
✏️ Оставляй вопросы в комментариях к этому посту!
#OpenTalks
#AITalentHub #ITMO #NapoleonIT
Гриша Лелейтнер, Head of ML, LLM в GigaChat [Сбер].
Обсудим open-source LLM на русском и как DeepSeek меняет правила игры. На твои вопросы ответят эксперты, которые не просто знают, а создают русскоязычные LLM на практике.
#OpenTalks
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉 GigaChat 2.0 — полностью обновлённая линейка моделей!
Салют! Мы рады представить Вам новые GigaChat 2 Lite, Pro и Max модели. За полгода мы проделали колоссальную работу и делимся результатами в хабр статье.
✨ Ключевые обновления:
- Контекст до 128 тысяч токенов — в 4 раза больше!
- Значительно улучшенные обучающие данные
- Усовершенствованный Alignment и RLHF
- Улучшенные функциональные вызовы
- Повышенное качество понимания инструкций
🏆 Впечатляющие результаты:
- GigaChat 2 MAX занял 1-е место в бенчмарке MERA, обойдя GPT-4o!
- В ru_llm_arena: 82,5 балла (было 72,5)
- В arena_hard_ru: 83,5 балла (было 67,0)
- GigaChat 2 Lite ≈ прежний GigaChat Pro
- GigaChat 2 Pro ≈ прежний GigaChat MAX
Особенно заметен прогресс в точных и естественных науках. Ответы стали более естественными и близкими к живому общению.
Первыми могут попробовать новые модели могут пользователи с помощью API, уже сейчас через Playground — пользовательском интерфейсе для продвинутой работы с промптами!
Салют! Мы рады представить Вам новые GigaChat 2 Lite, Pro и Max модели. За полгода мы проделали колоссальную работу и делимся результатами в хабр статье.
✨ Ключевые обновления:
- Контекст до 128 тысяч токенов — в 4 раза больше!
- Значительно улучшенные обучающие данные
- Усовершенствованный Alignment и RLHF
- Улучшенные функциональные вызовы
- Повышенное качество понимания инструкций
🏆 Впечатляющие результаты:
- GigaChat 2 MAX занял 1-е место в бенчмарке MERA, обойдя GPT-4o!
- В ru_llm_arena: 82,5 балла (было 72,5)
- В arena_hard_ru: 83,5 балла (было 67,0)
- GigaChat 2 Lite ≈ прежний GigaChat Pro
- GigaChat 2 Pro ≈ прежний GigaChat MAX
Особенно заметен прогресс в точных и естественных науках. Ответы стали более естественными и близкими к живому общению.
Первыми могут попробовать новые модели могут пользователи с помощью API, уже сейчас через Playground — пользовательском интерфейсе для продвинутой работы с промптами!
🔥 Как FP8-вычисления ускоряют обучение больших моделей?
Когда-то переход на FP16 в машинном обучении был настоящим вызовом — приходилось бороться с переполнением чисел, потерей точности и нестабильностью тренировки. Со временем появился BF16, который совместил в себе диапазон FP32 и компактность FP16, сильно упростив работу и удешевив обучение моделей.
Но прогресс не стоит на месте: хочется использовать ещё более компактный тип FP8, который может ускорить вычисления теоретически аж в 4 раза по сравнению с FP32.
Звучит круто, но на практике есть сложности: FP8 бывает разным. Самые распространённые форматы:
🔸 E4M3 — шире диапазон чисел, ниже точность (подходит для активаций)
🔸 E5M2 — точнее числа, но уже диапазон (лучше для весов)
Из-за того, что в FP8 всего 8 бит на число, быстро возникают проблемы переполнения или, наоборот, слишком сильного округления. Поэтому использовать FP8 напрямую для всех операций пока невозможно. Нужно хитро подбирать форматы и аккуратно контролировать масштаб данных.
В GigaChat мы начали внедрять FP8 постепенно, сфокусировавшись сначала на наиболее подходящей для него операции — перемножении матриц (GEMM). Но даже здесь возникли свои сложности: активации и веса всё ещё хранятся в BF16, а значит, каждую операцию нужно предварять конвертацией типов:
активации (BF16) → FP8
веса (BF16) → FP8
перемножение матриц в FP8
результат (FP8) → обратно в BF16
Без специальных оптимизаций эти постоянные преобразования приводят к огромным накладным расходам. И именно здесь критически важен
Несмотря на сложности, мы уже смогли ускорить тренировку на впечатляющие 27%, полностью сохранив точность модели 🚀
Что можно делать дальше:
🔸 Сократить количество BF16-активаций там, где это возможно без потери качества
🔸 Переводить межузловые коммуникации на FP8
⚡️Будем держать вас в курсе следующих оптимизаций! Stay tuned
P.S. Большое спасибо GigaChat Max 2.0 за анимацию!
Когда-то переход на FP16 в машинном обучении был настоящим вызовом — приходилось бороться с переполнением чисел, потерей точности и нестабильностью тренировки. Со временем появился BF16, который совместил в себе диапазон FP32 и компактность FP16, сильно упростив работу и удешевив обучение моделей.
Но прогресс не стоит на месте: хочется использовать ещё более компактный тип FP8, который может ускорить вычисления теоретически аж в 4 раза по сравнению с FP32.
Звучит круто, но на практике есть сложности: FP8 бывает разным. Самые распространённые форматы:
🔸 E4M3 — шире диапазон чисел, ниже точность (подходит для активаций)
🔸 E5M2 — точнее числа, но уже диапазон (лучше для весов)
Из-за того, что в FP8 всего 8 бит на число, быстро возникают проблемы переполнения или, наоборот, слишком сильного округления. Поэтому использовать FP8 напрямую для всех операций пока невозможно. Нужно хитро подбирать форматы и аккуратно контролировать масштаб данных.
В GigaChat мы начали внедрять FP8 постепенно, сфокусировавшись сначала на наиболее подходящей для него операции — перемножении матриц (GEMM). Но даже здесь возникли свои сложности: активации и веса всё ещё хранятся в BF16, а значит, каждую операцию нужно предварять конвертацией типов:
активации (BF16) → FP8
веса (BF16) → FP8
перемножение матриц в FP8
результат (FP8) → обратно в BF16
Без специальных оптимизаций эти постоянные преобразования приводят к огромным накладным расходам. И именно здесь критически важен
torch.compile
: он автоматически объединяет цепочки таких операций, избавляясь от ненужных промежуточных шагов и резко снижая задержки и копирования.Несмотря на сложности, мы уже смогли ускорить тренировку на впечатляющие 27%, полностью сохранив точность модели 🚀
Что можно делать дальше:
🔸 Сократить количество BF16-активаций там, где это возможно без потери качества
🔸 Переводить межузловые коммуникации на FP8
⚡️Будем держать вас в курсе следующих оптимизаций! Stay tuned
P.S. Большое спасибо GigaChat Max 2.0 за анимацию!
🔥 FP8 mixed precision — где и как DeepSeek снизили точность вычислений?
В прошлом посте мы разобрали, как использование FP8 для матричных операций (GEMM) ускоряет обучение моделей. Теперь давайте посмотрим, какие методы и оптимизации FP8 применялись при разработке DeepSeek-V3 — одной из лучших моделей на данный момент.
⚡️ Особенности FP8 GEMM от DeepSeek
Просто перевести все вычисления в FP8 недостаточно. В обучении встречаются выбросы (outliers) в активациях, весах и градиентах — редкие, но экстремальные значения, которые сильно искажают точность при квантовании. Если их не учитывать, модель может потерять качество.
Вот какие техники использовались в DeepSeek-V3 для FP8-обучения:
🔹 Точечное (fine-grained) квантование
Вместо квантования тензоров целиком они разбиваются на небольшие группы:
▪️ Активации — на «плитки» (tile-wise) 1×128
▪️ Веса — на блоки (block-wise) 128×128
Активации более подвержены выбросам, поэтому требуют более аккуратного квантования. Этот метод снижает влияние выбросов, так как масштабирование подгоняется под меньшие группы элементов.
🔹 FP32-аккумуляция
FP8 ограничен по точности из-за небольшого количества бит для мантиссы. Чтобы минимизировать ошибки округления, промежуточные результаты GEMM копируются в FP32-регистры CUDA Cores и только потом суммируются.
Использование FP32 для аккумуляции выходов тензорных ядер позволяет значительно снизить ошибки, которые возникают при суммировании большого числа результатов умножения маленьких матриц в FP8.
🔥 Другие важные оптимизации
🔹 Использование E4M3 вместо гибридных форматов
Ранее в FP8-обучении использовали гибридные форматы:
▪️ E4M3 для Fprop (прямой проход)
▪️ E5M2 для Dgrad / Wgrad (обратный проход)
В DeepSeek-V3 все операции перевели на E4M3, так как он имеет большую мантиссу → выше точность. Ограниченный динамический диапазон компенсируется tile/block-wise масштабированием.
🔹 Экономия памяти и ускорение коммуникации
▪️ Low-precision оптимизатор — моменты AdamW хранятся в BF16, а мастер-веса и градиенты — в FP32.
▪️ FP8-кеширование активаций — активации сохраняются в FP8 после Fprop, что значительно экономит память.
▪️ Сжатие коммуникации — в распределённом обучении передача данных между узлами — узкое место. В DeepSeek-V3 для части коммуникаций активации перед отправкой сжимаются в FP8, что по заявлениям авторов уменьшает накладные расходы на передачу данных. Однако часть коммуникаций все же сохраняется в BF16 в критических местах.
И главное: качество модели практически не страдает. Ошибка по сравнению с BF16-обучением остаётся в пределах 0.25%, что укладывается в статистическую погрешность.
Авторы не только подробно описали свою методику, но и выложили в open-source реализацию FP8 GEMM с fine-grained scaling — DeepGEMM.
Более маленькие типы данных вроде FP8 и bf16 — это не только про ускорение матричных вычислений, но и про эффективное управление памятью и оптимизацию коммуникаций. И как показали DeepSeek, правильная интеграция этих техник позволяет обучать очень большие модели без потери качества!🚀
В прошлом посте мы разобрали, как использование FP8 для матричных операций (GEMM) ускоряет обучение моделей. Теперь давайте посмотрим, какие методы и оптимизации FP8 применялись при разработке DeepSeek-V3 — одной из лучших моделей на данный момент.
⚡️ Особенности FP8 GEMM от DeepSeek
Просто перевести все вычисления в FP8 недостаточно. В обучении встречаются выбросы (outliers) в активациях, весах и градиентах — редкие, но экстремальные значения, которые сильно искажают точность при квантовании. Если их не учитывать, модель может потерять качество.
Вот какие техники использовались в DeepSeek-V3 для FP8-обучения:
🔹 Точечное (fine-grained) квантование
Вместо квантования тензоров целиком они разбиваются на небольшие группы:
▪️ Активации — на «плитки» (tile-wise) 1×128
▪️ Веса — на блоки (block-wise) 128×128
Активации более подвержены выбросам, поэтому требуют более аккуратного квантования. Этот метод снижает влияние выбросов, так как масштабирование подгоняется под меньшие группы элементов.
🔹 FP32-аккумуляция
FP8 ограничен по точности из-за небольшого количества бит для мантиссы. Чтобы минимизировать ошибки округления, промежуточные результаты GEMM копируются в FP32-регистры CUDA Cores и только потом суммируются.
Использование FP32 для аккумуляции выходов тензорных ядер позволяет значительно снизить ошибки, которые возникают при суммировании большого числа результатов умножения маленьких матриц в FP8.
🔥 Другие важные оптимизации
🔹 Использование E4M3 вместо гибридных форматов
Ранее в FP8-обучении использовали гибридные форматы:
▪️ E4M3 для Fprop (прямой проход)
▪️ E5M2 для Dgrad / Wgrad (обратный проход)
В DeepSeek-V3 все операции перевели на E4M3, так как он имеет большую мантиссу → выше точность. Ограниченный динамический диапазон компенсируется tile/block-wise масштабированием.
🔹 Экономия памяти и ускорение коммуникации
▪️ Low-precision оптимизатор — моменты AdamW хранятся в BF16, а мастер-веса и градиенты — в FP32.
▪️ FP8-кеширование активаций — активации сохраняются в FP8 после Fprop, что значительно экономит память.
▪️ Сжатие коммуникации — в распределённом обучении передача данных между узлами — узкое место. В DeepSeek-V3 для части коммуникаций активации перед отправкой сжимаются в FP8, что по заявлениям авторов уменьшает накладные расходы на передачу данных. Однако часть коммуникаций все же сохраняется в BF16 в критических местах.
И главное: качество модели практически не страдает. Ошибка по сравнению с BF16-обучением остаётся в пределах 0.25%, что укладывается в статистическую погрешность.
Авторы не только подробно описали свою методику, но и выложили в open-source реализацию FP8 GEMM с fine-grained scaling — DeepGEMM.
Более маленькие типы данных вроде FP8 и bf16 — это не только про ускорение матричных вычислений, но и про эффективное управление памятью и оптимизацию коммуникаций. И как показали DeepSeek, правильная интеграция этих техник позволяет обучать очень большие модели без потери качества!🚀
🚀 GigaChat 2 стал мультимодальным и уже доступен в боте и на сайте
Обновление серьёзное: модель научилась понимать не только текст, но и голос, изображения, ссылки и документы.
Что прокачали:
🔊 Аудио
Теперь GigaChat нативно понимает голос: на вход в модель поступает не просто распознанная речь, а вся аудиозапись целиком. Это позволяет взаимодействовать с моделью не только на русском, но и на английском, точнее понимать запросы с узко-специализированными терминами.
📎 Ссылки и документы
Файлы больше не грузятся в контекст целиком. Вместо этого — метаинформация и function call по требованию. Можно кидать сразу несколько ссылок, а в контексте может содержаться несколько документов, и модель будет работать с ними осмысленно.
📽 Видео по ссылке
С VK, RuTube — вытаскивается аудио, подаётся в модель целиком. GigaChat понимает, о чём речь, и умеет выдать краткое содержание или ответить на вопрос.
🖼 Зрение
Поддержка OCR, локализация объектов, понимание структуры изображений, обработка сканов документов, математических выражений, графиков.
⚙️ Function calling
Под капотом — гибкая система вызова внешних функций: работа с файлами, парсинг ссылок, интернет-поиск. Всё вызывается по необходимости в зависимости от запроса.
🧠 Контекст вырос, галлюцинаций меньше, лучше следование инструкциям и понимание длинных запросов.
💬 Попробуйте новые возможности прямо сейчас — в боте или на giga.chat
Обновление серьёзное: модель научилась понимать не только текст, но и голос, изображения, ссылки и документы.
Что прокачали:
🔊 Аудио
Теперь GigaChat нативно понимает голос: на вход в модель поступает не просто распознанная речь, а вся аудиозапись целиком. Это позволяет взаимодействовать с моделью не только на русском, но и на английском, точнее понимать запросы с узко-специализированными терминами.
📎 Ссылки и документы
Файлы больше не грузятся в контекст целиком. Вместо этого — метаинформация и function call по требованию. Можно кидать сразу несколько ссылок, а в контексте может содержаться несколько документов, и модель будет работать с ними осмысленно.
📽 Видео по ссылке
С VK, RuTube — вытаскивается аудио, подаётся в модель целиком. GigaChat понимает, о чём речь, и умеет выдать краткое содержание или ответить на вопрос.
🖼 Зрение
Поддержка OCR, локализация объектов, понимание структуры изображений, обработка сканов документов, математических выражений, графиков.
⚙️ Function calling
Под капотом — гибкая система вызова внешних функций: работа с файлами, парсинг ссылок, интернет-поиск. Всё вызывается по необходимости в зависимости от запроса.
🧠 Контекст вырос, галлюцинаций меньше, лучше следование инструкциям и понимание длинных запросов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Всё благодаря GigaChain (GitVerse, GitHub) — набору решений для быстрой и удобной разработки LLM-приложений и агентов. Что в арсенале:
• langchain-gigachat — партнерский пакет для подключения Гиги к LangChain
• gigachat — клиентская библиотека для GigaChat API
• gpt2giga — прокси OpenAI → GigaChat ⚡️ n8n, Aider, RooCode, LangFlow и другие заработают с гигой из коробки
Полная совместимость с LangChain и LangGraph
👉 ReAct, function calling, RAG, memory — работает всё
👉 Python и JavaScript, Java — скоро
Быстрый старт:
# pip install langchain-gigachat
from langchain_gigachat import GigaChat
llm = GigaChat(credentials="GIGA_KEY", model="GigaChat-2-Max")
llm.invoke("Переведи: Hello, world!")
Пример 🤖ReAct-агента с поиском:
# pip install langgraph duckduckgo-search
from langgraph.prebuilt import create_react_agent
from langchain_community.tools import DuckDuckGoSearchRun
agent = create_react_agent(llm, tools=[DuckDuckGoSearchRun()])
agent.invoke(
{"messages": [("user", "Какой курс биткоина в рублях?")]}
)
К такому агенту можно подключить готовые 🔗MCP-сервера. Например, подключим сервер, позволяющий агенту работать с диском:
# pip install langchain_mcp_adapters
from langchain_mcp_adapters.client import MultiServerMCPClient
async with MultiServerMCPClient(
{
"filesystem": {
"command": "npx",
"args": ["-y", "@modelcontextprotocol/server-filesystem", "."],
}
}
) as client:
agent = create_react_agent(llm, tools=[DuckDuckGoSearchRun()] + client.get_tools())
await agent.ainvoke({"messages": [("user", "Сохрани курс биткоина в рублях в файл btc.txt")]})
Посмотрим, что получилось:
> cat btc.txt
> 7 083 821.138 RUB
Агент справился, скомбинировав вызовы тулов из разных источников - сначала нашел информацию о курсе, а затем создал файл на диске с найденными данными.
⭐ Репозитарий (GitVerse, GitHub) и десятки других примеров: агенты, чат-боты, RAG, MCP-агент и другие
Попробуй запустить готовые примеры, чтобы начать погружаться в разработку LLM-приложений с Гигой. А ещё, каждому разработчику – миллион токенов в Freemium-тарифе при авторизации через Сбер ID для теста всех моделей GigaChat.
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Как мы научили GigaChat слышать: погружение в аудиомодальность
Опубликовали на Хабр технический разбор аудиомодальности GigaChat: архитектура, обучение, метрики и демо‑сценарии.
🔊 Зачем аудимодальность?
Связка распознавание речи (ASR) + GigaChat теряла смысловую информацию и не учитывала нюансы речи. End‑to‑end‑модель считывает звук напрямую и держит длинный аудиоконтекст.
🧠 Как учили
1. Audio-only Encoder Pre-training на 700k часов аудио.
2. Encoder ASR Fine-tuning на 100k часов аудио с транскрипциями.
3. Audio ⇄ Text Representations Alignment. С помощью облегчённого декодера
4. Audio SFT
📊 Результаты
• Side-by-Side
• Диалоговые свойства на русском языке на уровне GPT-4o (оценка людьми по 1200 диалогам в разрезе 7 критериев).
• Незначительная деградация базовых метрик: MMLU / IFEval просели ≤ 3 %.
• Обработка аудиозаписей до 170 минут.
Сценарии использования
• 📺 Краткое содержание — суммаризация часовых видео по аудиодорожке → https://giga.chat/link/gcscNrBMbT
• 🧑🎓 Языковой репетитор — интерактивная грамматика → https://giga.chat/link/gcsasCtOPX
• 📊 Анализ презентаций — темп, паузы, советы → https://giga.chat/link/gcsculCfiH
• 🌆 Описание звуковой сцены — неречевые аудио → https://giga.chat/link/gcsgenSGHJ
🖼 Экспериментальная мультимодальность: Vision + Audio
Последовательное дообучение позволяет поддерживать мультимодальный контекст без потерь в понимании изображений и аудио.
👉 Тестируйте уже сейчас: giga.chat или @gigachat_bot.
Опубликовали на Хабр технический разбор аудиомодальности GigaChat: архитектура, обучение, метрики и демо‑сценарии.
🔊 Зачем аудимодальность?
Связка распознавание речи (ASR) + GigaChat теряла смысловую информацию и не учитывала нюансы речи. End‑to‑end‑модель считывает звук напрямую и держит длинный аудиоконтекст.
🧠 Как учили
1. Audio-only Encoder Pre-training на 700k часов аудио.
2. Encoder ASR Fine-tuning на 100k часов аудио с транскрипциями.
3. Audio ⇄ Text Representations Alignment. С помощью облегчённого декодера
GigaChat Lite
мы согласовываем векторы аудио-энкодера с латентным пространством LLM. Такой «тёплый старт» сокращает число итераций на следующем этапе и экономит GPU-время.4. Audio SFT
GigaChat 2 Max
— 10k часов на широком спектре задач (ASR, QA, Captioning, function calling, long-form summarization, ...).📊 Результаты
• Side-by-Side
GigaChat Audio
vs ASR + GigaChat
: 0.68 vs 0.32 — GigaChat Audio отвечает по существу, без добавления ложной информации, лучше понимает термины и английскую речь, справляется с анализом сцены и слышимости речи.• Диалоговые свойства на русском языке на уровне GPT-4o (оценка людьми по 1200 диалогам в разрезе 7 критериев).
• Незначительная деградация базовых метрик: MMLU / IFEval просели ≤ 3 %.
• Обработка аудиозаписей до 170 минут.
Сценарии использования
• 📺 Краткое содержание — суммаризация часовых видео по аудиодорожке → https://giga.chat/link/gcscNrBMbT
• 🧑🎓 Языковой репетитор — интерактивная грамматика → https://giga.chat/link/gcsasCtOPX
• 📊 Анализ презентаций — темп, паузы, советы → https://giga.chat/link/gcsculCfiH
• 🌆 Описание звуковой сцены — неречевые аудио → https://giga.chat/link/gcsgenSGHJ
🖼 Экспериментальная мультимодальность: Vision + Audio
Последовательное дообучение позволяет поддерживать мультимодальный контекст без потерь в понимании изображений и аудио.
👉 Тестируйте уже сейчас: giga.chat или @gigachat_bot.