Релиз GigaChat MAX! (ссылка на Хабр)
Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).
- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.
Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.
Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов
Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).
- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.
Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.
Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов
Please open Telegram to view this post
VIEW IN TELEGRAM
Как устроена современная команда предобучения больших языковых моделей?
Создание современных больших языковых моделей, таких как GigaChat, GPT-4 и других, требует колоссальных вычислительных ресурсов и усилий целых инженерных команд. Например, обучение модели Llama 3 использует кластер из 24 576 GPU H100 (правда учили на 16384). Если вы захотите арендовать такой кластер, это обойдется примерно в $1,5-2 миллиона в день! В этом посте мы расскажем, какие задачи решают команды, занимающиеся предобучением (pretrain) языковых моделей, и почему их работа имеет критическое значение.
Есть набор очевидных задач, которыми занимаются все ML команды: это подготовка данных и настройка гиперпараметров модели. Но помимо этого, команда pretrain-ов работает над:
🔸 Проверкой гипотез по улучшению обучения: от введения новых стадий предобучения до поиска оптимального LR планировщика
🔸 Оптимизацией распределенного обучения
🔸 Профилированием и поиском узких мест
🔸 Тестированием новых архитектур
🔸 Мониторингом и оценкой качества обучения
Отдельное внимание уделяется оптимизации кодовой базы для обучения. На это сейчас нацелены все компании, использующие локальные LLM-модели. Некоторые из них даже продают инструменты для быстрого обучения (например, Unsloth).
Может показаться, что с учетом огромных инвестиций в область больших языковых моделей все уже давно оптимизировано. Однако отличным примером обратного является ускорение командой PyTorch одного из самых известных и используемых методов параллелизма - Tensor Parallel (TP).
Главная особенность ускорения в том, что теперь передача данных между узлами и вычисления на них выполняются одновременно, что существенно ускоряет процесс обучения. Вместо того чтобы ждать загрузки всех весов до начала вычислений, система может начать работу с части данных, параллельно подгружая остальные. Именно за счет этого новый метод получил название Async-TP.
Хотя подобный алгоритм обсуждался еще с 2022 года, его эффективная реализация на CUDA была непростой задачей. Предлагаем вам ознакомиться с полным блог-постом, если интересны технические детали.
PyTorch-реализация асинхронного тензорного параллелизма Async-TP позволила:
• Ускорить прямой проход (forward pass) на 29%
• Повысить общую скорость обучения модели Llama 3 7B на 8%
Async-TP использует CUDA P2P для оптимизации передачи данных. При наличии NVSwitch это позволяет практически полностью скрыть задержки межгрупповых коммуникаций.
Поздравляем коллег из PyTorch с этим замечательным результатом! Такие оптимизации критически важны — без них обучение даже базовых моделей растянулось бы на многие годы и стоило бы кратно дороже, чем сейчас.
Мы в GigaChat уделяем много времени оптимизациям обучения и расскажем о том, где и как их применяем, в следующих постах! 🚀
Создание современных больших языковых моделей, таких как GigaChat, GPT-4 и других, требует колоссальных вычислительных ресурсов и усилий целых инженерных команд. Например, обучение модели Llama 3 использует кластер из 24 576 GPU H100 (правда учили на 16384). Если вы захотите арендовать такой кластер, это обойдется примерно в $1,5-2 миллиона в день! В этом посте мы расскажем, какие задачи решают команды, занимающиеся предобучением (pretrain) языковых моделей, и почему их работа имеет критическое значение.
Есть набор очевидных задач, которыми занимаются все ML команды: это подготовка данных и настройка гиперпараметров модели. Но помимо этого, команда pretrain-ов работает над:
🔸 Проверкой гипотез по улучшению обучения: от введения новых стадий предобучения до поиска оптимального LR планировщика
🔸 Оптимизацией распределенного обучения
🔸 Профилированием и поиском узких мест
🔸 Тестированием новых архитектур
🔸 Мониторингом и оценкой качества обучения
Отдельное внимание уделяется оптимизации кодовой базы для обучения. На это сейчас нацелены все компании, использующие локальные LLM-модели. Некоторые из них даже продают инструменты для быстрого обучения (например, Unsloth).
Может показаться, что с учетом огромных инвестиций в область больших языковых моделей все уже давно оптимизировано. Однако отличным примером обратного является ускорение командой PyTorch одного из самых известных и используемых методов параллелизма - Tensor Parallel (TP).
Главная особенность ускорения в том, что теперь передача данных между узлами и вычисления на них выполняются одновременно, что существенно ускоряет процесс обучения. Вместо того чтобы ждать загрузки всех весов до начала вычислений, система может начать работу с части данных, параллельно подгружая остальные. Именно за счет этого новый метод получил название Async-TP.
Хотя подобный алгоритм обсуждался еще с 2022 года, его эффективная реализация на CUDA была непростой задачей. Предлагаем вам ознакомиться с полным блог-постом, если интересны технические детали.
PyTorch-реализация асинхронного тензорного параллелизма Async-TP позволила:
• Ускорить прямой проход (forward pass) на 29%
• Повысить общую скорость обучения модели Llama 3 7B на 8%
Async-TP использует CUDA P2P для оптимизации передачи данных. При наличии NVSwitch это позволяет практически полностью скрыть задержки межгрупповых коммуникаций.
Поздравляем коллег из PyTorch с этим замечательным результатом! Такие оптимизации критически важны — без них обучение даже базовых моделей растянулось бы на многие годы и стоило бы кратно дороже, чем сейчас.
Мы в GigaChat уделяем много времени оптимизациям обучения и расскажем о том, где и как их применяем, в следующих постах! 🚀
PyTorch Forums
[Distributed w/ TorchTitan] Introducing Async Tensor Parallelism in PyTorch
with Horace He, Less Wright, Luca Wehrstedt, Tianyu Liu, Wanchao Liang TL;DR We implemented experimental async tensor parallelism support in PyTorch. We integrated it in TorchTitan and observed: Up to ~29% forward pass speedup and ~8% E2E speedup in Llama3…
📢 Обновления в GigaChat: Улучшенная работа с документами!
Разрабатывая взаимодействие GigaСhat с документами, мы:
✨ расширили внутренние пайплайны и наборы инструментов работы с документами. В результате в GigaChat появилась поддержка новых форматов — теперь вы можете работать с файлами формата
✨ изменили и оптимизировали внутреннюю архитектуру работы с документами, благодаря чему увеличили скорость обработки больших документов.
✨ добавили работу с документами во все внешние интерфейсы GigaChat. Обновления уже доступны в наших продуктах для бизнеса, включая GigaChat API, а также в веб версиях и приложениях Telegram и VK.
Об этом и о том, как мы работаем с документами для GigaChat, можно посмотреть в небольшой заметке на telegra.ph.
Попробуйте работу GigaChat с документами прямо сейчас и делитесь своим опытом использования обновленного сервиса! 😊
Разрабатывая взаимодействие GigaСhat с документами, мы:
✨ расширили внутренние пайплайны и наборы инструментов работы с документами. В результате в GigaChat появилась поддержка новых форматов — теперь вы можете работать с файлами формата
.txt
, .pdf
, .doc
, .docx
и .epub
. Скоро будет доступна поддержка .pptx
.✨ изменили и оптимизировали внутреннюю архитектуру работы с документами, благодаря чему увеличили скорость обработки больших документов.
✨ добавили работу с документами во все внешние интерфейсы GigaChat. Обновления уже доступны в наших продуктах для бизнеса, включая GigaChat API, а также в веб версиях и приложениях Telegram и VK.
Об этом и о том, как мы работаем с документами для GigaChat, можно посмотреть в небольшой заметке на telegra.ph.
Попробуйте работу GigaChat с документами прямо сейчас и делитесь своим опытом использования обновленного сервиса! 😊
Telegraph
📄 GigaChat: Новые возможности и улучшения работы с документами
Мы рады сообщить, что в GigaChat теперь доступны новые функции для работы с документами! 🎉 ✨ Поддержка новых форматов: Теперь вы можете работать с файлами формата .txt, .pdf, .doc, .docx и .epub. Скоро будет доступна поддержка .pptx. 👥 Доступность: Эти обновления…
Салют, GigaChat! Технологии искусственного интеллекта
Приглашаем всех инженеров и разработчиков, которые работают с ML/AI, на нашу конференцию.
📆 17 декабря, 12:30 (МСК, GMT+3)
📍 Офлайн в Москве и онлайн по всей России
В программе 9 докладов о трёх направлениях нашей разработки: Text, Vision и Audio.
Вы узнаете, как настраивать среду разработки и создавать ИИ-агентов, подключаемых к реальному миру. Работать с моделями на этапах pretrain, alignment, fine-tuning. Увидите новые фреймворки и подходы к обучению LLM синтезировать речь, воспринимать звуковую и визуальную информацию. Узнаете о способах лучше фильтровать данные, работать с длинным контекстом, быстро обучать очень большие модели. И всё это на примере новых и самых мощных моделей GigaChat.
Это далеко не весь перечень тем, подробная программа и регистрация уже на сайте.
Количество мест в офлайне ограничено. Для участия нужно зарегистрироваться и дождаться, когда вам придёт письмо-приглашение.
➡ Зарегистрироваться
Ждём ваши заявки и до встречи!
Приглашаем всех инженеров и разработчиков, которые работают с ML/AI, на нашу конференцию.
В программе 9 докладов о трёх направлениях нашей разработки: Text, Vision и Audio.
Вы узнаете, как настраивать среду разработки и создавать ИИ-агентов, подключаемых к реальному миру. Работать с моделями на этапах pretrain, alignment, fine-tuning. Увидите новые фреймворки и подходы к обучению LLM синтезировать речь, воспринимать звуковую и визуальную информацию. Узнаете о способах лучше фильтровать данные, работать с длинным контекстом, быстро обучать очень большие модели. И всё это на примере новых и самых мощных моделей GigaChat.
Это далеко не весь перечень тем, подробная программа и регистрация уже на сайте.
Количество мест в офлайне ограничено. Для участия нужно зарегистрироваться и дождаться, когда вам придёт письмо-приглашение.
Ждём ваши заявки и до встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
GigaAM-v2: лучшая открытая модель для распознания речи на русском языке с возможностью коммерческого использования!
СКАЧАТЬ➡️ ➡️ ➡️ GitHub | GitVerse
В апреле мы опубликовали GigaAM (Giga Acoustic Model) — фундаментальную акустическую модель, основанную на архитектуре Conformer и фреймворке обучения wav2vec2.0. Модель GigaAM была обучена на аудиозаписях на русском языке, что позволило показать отличное качество при дообучении на задачу распознавания речи: GigaAM-CTC показывает Word Error Rate, в среднем, на 38% ниже по сравнению с Whisper-large-v3 на коротких аудиозаписях на русском языке. Подробнее про устройство моделей и подходы к предобучению мы рассказывали в статье на Хабр.
В мае мы обновили семейство моделей, обучив GigaAM-RNNT — модель распознавания речи с авторегрессивным декодером. GigaAM-RNNT стала новой state-of-the-art моделью среди открытых альтернатив по нашим и независимым оценкам. Разрыв в Word Error Rate по сравнению с OpenAI Whisper увеличился до 43%. Технический доклад на DataFest об устройстве этой модели доступен по ссылке.
От сообщества поступало большое количество запросов на коммерческое применение наших моделей, удобство использования и конвертацию графов моделей в популярные фреймворки инференса.
Поэтому сегодня мы делимся большим обновлением: GigaAM-v2
🔘 модели стали доступны с MIT лицензией, которая допускает коммерческое использование
🔘 мы улучшили процесс подготовки данных и подход к предобучению, что позволило дополнительно снизить Word Error Rate моделей распознавания: GigaAM-RNNT-v2 опережает OpenAI Whisper на 48%
🔘 для простоты использования мы избавились от зависимостей NeMo-фреймворка, который использовался для обучения
🔘 добавилась поддержка конвертации в ONNX одной строкой
➡️ О технических деталях подготовки GigaAM-v2, применении подобных моделей для end-to-end понимания речи в GigaChat, ablation studies и невзлетевших экспериментах мы расскажем на конференции Салют, GigaChat! Технологии искусственного интеллекта. Не пропустите!
Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot
СКАЧАТЬ
В апреле мы опубликовали GigaAM (Giga Acoustic Model) — фундаментальную акустическую модель, основанную на архитектуре Conformer и фреймворке обучения wav2vec2.0. Модель GigaAM была обучена на аудиозаписях на русском языке, что позволило показать отличное качество при дообучении на задачу распознавания речи: GigaAM-CTC показывает Word Error Rate, в среднем, на 38% ниже по сравнению с Whisper-large-v3 на коротких аудиозаписях на русском языке. Подробнее про устройство моделей и подходы к предобучению мы рассказывали в статье на Хабр.
В мае мы обновили семейство моделей, обучив GigaAM-RNNT — модель распознавания речи с авторегрессивным декодером. GigaAM-RNNT стала новой state-of-the-art моделью среди открытых альтернатив по нашим и независимым оценкам. Разрыв в Word Error Rate по сравнению с OpenAI Whisper увеличился до 43%. Технический доклад на DataFest об устройстве этой модели доступен по ссылке.
От сообщества поступало большое количество запросов на коммерческое применение наших моделей, удобство использования и конвертацию графов моделей в популярные фреймворки инференса.
Поэтому сегодня мы делимся большим обновлением: GigaAM-v2
Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Николай из группы Распознавание и синтез речи очень оперативно провел сравнение разных Open-Source моделей после выхода GigaAM-v2. Спасибо!
Forwarded from Nikolay V. Shmyrev
Обновил результаты c GigaAMv2. Хорошее обновление, хорошо стало редкие слова распознавать.
Уже через пару часов начнётся конференция Салют, GigaChat!
Ждём всех, кто зарегистрировался на офлайн часть с 11:30 в Воробьёвы Холл по адресу: г. Москва, ул. Косыгина д.28, стр.1
Онлайн участникам нужно авторизоваться в Личном кабинете JUG Ru Group. Это можно сделать прямо на сайте конференции по кнопке в плеере.
Подробности в канале конференции.
Если ещё не успели зарегистрироваться, но хотите послушать доклады онлайн, переходите на сайт и заполняйте заявку на онлайн участие: ссылка на трансляцию придёт в течение нескольких минут.
До встречи!
Ждём всех, кто зарегистрировался на офлайн часть с 11:30 в Воробьёвы Холл по адресу: г. Москва, ул. Косыгина д.28, стр.1
Онлайн участникам нужно авторизоваться в Личном кабинете JUG Ru Group. Это можно сделать прямо на сайте конференции по кнопке в плеере.
Подробности в канале конференции.
Если ещё не успели зарегистрироваться, но хотите послушать доклады онлайн, переходите на сайт и заполняйте заявку на онлайн участие: ссылка на трансляцию придёт в течение нескольких минут.
До встречи!
Релиз Giga-Embeddings-instruct! (ссылка на hugging-face)
Мы выложили в открытый доступ эмбеддинг модель Giga-Embeddings-instruct.
Giga-Embeddings-instruct занимает 2-ое(*) место в бенчмарке ruMTEB. Следующая после нас модель это e5-mistral-7b-instruct, которая имеет в 3 раза больше параметров (~7Б у mistral, –2.5B у нас).
Размер контекста модели 4096. Более 60 различных источников данных были использованы для обучения модели. Модель можно использовать для всех типов дискриминативных задач – классификация, поиск, ранжирование, и т.д.
За основу мы взяли GigaChat-pretrain-3B, заменили внимание с decoder на encoder, в качестве агрегации использовали Latent Attention Pooling.
(*) Модель на первом месте пока не выложена в опенсорс на момент написания поста 27.12.
Мы выложили в открытый доступ эмбеддинг модель Giga-Embeddings-instruct.
Giga-Embeddings-instruct занимает 2-ое(*) место в бенчмарке ruMTEB. Следующая после нас модель это e5-mistral-7b-instruct, которая имеет в 3 раза больше параметров (~7Б у mistral, –2.5B у нас).
Размер контекста модели 4096. Более 60 различных источников данных были использованы для обучения модели. Модель можно использовать для всех типов дискриминативных задач – классификация, поиск, ранжирование, и т.д.
За основу мы взяли GigaChat-pretrain-3B, заменили внимание с decoder на encoder, в качестве агрегации использовали Latent Attention Pooling.
(*) Модель на первом месте пока не выложена в опенсорс на момент написания поста 27.12.
huggingface.co
ai-sage/Giga-Embeddings-instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Салют, GigaDev!
Команда GigaChat поздравляет всех с приходящим Новым Годом! За этот год мы сделали очень многое, чтобы развивать ИИ, и надеемся, что в следующем году сможем сделать еще больше. Спасибо всем, кто работал с нами и кто пользуется GigaChat, все это ради Вас!
Перед праздниками хотим поделиться записями докладов с прошедшей 17 декабрая конференции "Салют, GigaChat!".
1. GigaChain: создание AI-агентов на практике
2. Как научить LLM слышать: GigaAM 🤝 GigaChat Audio
3. Новости команды TTS SberDevices
4. Зрение в GigaChat
5. От теории к практике: построение надежного LLM-сервиса
6. GigaChat.Pretrain
7. GigaChat.Alignment
8. Эмбеддинги на GigaChat
9. Ассистент на LLM
Спасибо всем за этот чудесный год и хороших Вам праздников!
Команда GigaChat поздравляет всех с приходящим Новым Годом! За этот год мы сделали очень многое, чтобы развивать ИИ, и надеемся, что в следующем году сможем сделать еще больше. Спасибо всем, кто работал с нами и кто пользуется GigaChat, все это ради Вас!
Перед праздниками хотим поделиться записями докладов с прошедшей 17 декабрая конференции "Салют, GigaChat!".
1. GigaChain: создание AI-агентов на практике
2. Как научить LLM слышать: GigaAM 🤝 GigaChat Audio
3. Новости команды TTS SberDevices
4. Зрение в GigaChat
5. От теории к практике: построение надежного LLM-сервиса
6. GigaChat.Pretrain
7. GigaChat.Alignment
8. Эмбеддинги на GigaChat
9. Ассистент на LLM
Спасибо всем за этот чудесный год и хороших Вам праздников!
YouTube
Салют, GigaChat
Конференция команды разработки GigaChat про технологии искусственного интеллекта
🚀 Релиз новой модели GigaChat-20B-A3B-instruct-v1.5!
Представляем обновленную версию с улучшенным alignment, что привело к значительному росту метрик арен
📈 Результаты:
• Arena Hard RU: 20.8 → 29.6 (+8.8)
• Arena General: 41.1 → 49.1 (+8)
• остальные метрики на тех же значениях
🔋 Поддержка контекста: 131К токенов
🎉 Важно! Модель теперь доступна в популярных инструментах:
• llama.cpp
• ollama
• llama-cpp-python
• lm-studio, небольшой гайд.
⚡️ На М4 Pro в Q6 достигает 52 token / sec
💾 Мы подготовили различные GGUF квантизации для тестирования под разные задачи и ресурсы.
🔗 Ссылки:
• HuggingFace (fp32, bf16, int8)
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)
Представляем обновленную версию с улучшенным alignment, что привело к значительному росту метрик арен
📈 Результаты:
• Arena Hard RU: 20.8 → 29.6 (+8.8)
• Arena General: 41.1 → 49.1 (+8)
• остальные метрики на тех же значениях
🔋 Поддержка контекста: 131К токенов
🎉 Важно! Модель теперь доступна в популярных инструментах:
• llama.cpp
• ollama
• llama-cpp-python
• lm-studio, небольшой гайд.
⚡️ На М4 Pro в Q6 достигает 52 token / sec
💾 Мы подготовили различные GGUF квантизации для тестирования под разные задачи и ресурсы.
🔗 Ссылки:
• HuggingFace (fp32, bf16, int8)
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)
Forwarded from Al Talent Hub
30 мин до Open Talks Special – раскрываем карты!
🦇 Наш секретный гость:
Гриша Лелейтнер, Head of ML, LLM в GigaChat [Сбер].
Обсудим open-source LLM на русском и как DeepSeek меняет правила игры. На твои вопросы ответят эксперты, которые не просто знают, а создают русскоязычные LLM на практике.
✏️ Оставляй вопросы в комментариях к этому посту!
#OpenTalks
#AITalentHub #ITMO #NapoleonIT
Гриша Лелейтнер, Head of ML, LLM в GigaChat [Сбер].
Обсудим open-source LLM на русском и как DeepSeek меняет правила игры. На твои вопросы ответят эксперты, которые не просто знают, а создают русскоязычные LLM на практике.
#OpenTalks
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM