GigaDev — разработка GigaChat
2.22K subscribers
11 photos
1 video
20 links
Истории и статьи про разработку GigaChat от команды разработчиков. Мы рассказываем про все, что связано с языком, речью и искусственным интеллектом
Download Telegram
📢 Обновления в GigaChat: Улучшенная работа с документами!

Разрабатывая взаимодействие GigaСhat с документами, мы:
расширили внутренние пайплайны и наборы инструментов работы с документами. В результате в GigaChat появилась поддержка новых форматов — теперь вы можете работать с файлами формата .txt, .pdf, .doc, .docx и .epub. Скоро будет доступна поддержка .pptx.
изменили и оптимизировали внутреннюю архитектуру работы с документами, благодаря чему увеличили скорость обработки больших документов.
добавили работу с документами во все внешние интерфейсы GigaChat. Обновления уже доступны в наших продуктах для бизнеса, включая GigaChat API, а также в веб версиях и приложениях Telegram и VK.

Об этом и о том, как мы работаем с документами для GigaChat, можно посмотреть в небольшой заметке на telegra.ph.

Попробуйте работу GigaChat с документами прямо сейчас и делитесь своим опытом использования обновленного сервиса! 😊
Салют, GigaChat! Технологии искусственного интеллекта

Приглашаем всех инженеров и разработчиков, которые работают с ML/AI, на нашу конференцию.

📆 17 декабря, 12:30 (МСК, GMT+3)
📍 Офлайн в Москве и онлайн по всей России

В программе 9 докладов о трёх направлениях нашей разработки: Text, Vision и Audio.

Вы узнаете, как настраивать среду разработки и создавать ИИ-агентов, подключаемых к реальному миру. Работать с моделями на этапах pretrain, alignment, fine-tuning. Увидите новые фреймворки и подходы к обучению LLM синтезировать речь, воспринимать звуковую и визуальную информацию. Узнаете о способах лучше фильтровать данные, работать с длинным контекстом, быстро обучать очень большие модели. И всё это на примере новых и самых мощных моделей GigaChat.

Это далеко не весь перечень тем, подробная программа и регистрация уже на сайте.

Количество мест в офлайне ограничено. Для участия нужно зарегистрироваться и дождаться, когда вам придёт письмо-приглашение.

Зарегистрироваться

Ждём ваши заявки и до встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
GigaAM-v2: лучшая открытая модель для распознания речи на русском языке с возможностью коммерческого использования!

СКАЧАТЬ ➡️➡️➡️ GitHub | GitVerse

В апреле мы опубликовали GigaAM (Giga Acoustic Model) — фундаментальную акустическую модель, основанную на архитектуре Conformer и фреймворке обучения wav2vec2.0. Модель GigaAM была обучена на аудиозаписях на русском языке, что позволило показать отличное качество при дообучении на задачу распознавания речи: GigaAM-CTC показывает Word Error Rate, в среднем, на 38% ниже по сравнению с Whisper-large-v3 на коротких аудиозаписях на русском языке. Подробнее про устройство моделей и подходы к предобучению мы рассказывали в статье на Хабр.

В мае мы обновили семейство моделей, обучив GigaAM-RNNT — модель распознавания речи с авторегрессивным декодером. GigaAM-RNNT стала новой state-of-the-art моделью среди открытых альтернатив по нашим и независимым оценкам. Разрыв в Word Error Rate по сравнению с OpenAI Whisper увеличился до 43%. Технический доклад на DataFest об устройстве этой модели доступен по ссылке.

От сообщества поступало большое количество запросов на коммерческое применение наших моделей, удобство использования и конвертацию графов моделей в популярные фреймворки инференса.

Поэтому сегодня мы делимся большим обновлением: GigaAM-v2
🔘 модели стали доступны с MIT лицензией, которая допускает коммерческое использование
🔘 мы улучшили процесс подготовки данных и подход к предобучению, что позволило дополнительно снизить Word Error Rate моделей распознавания: GigaAM-RNNT-v2 опережает OpenAI Whisper на 48%
🔘 для простоты использования мы избавились от зависимостей NeMo-фреймворка, который использовался для обучения
🔘 добавилась поддержка конвертации в ONNX одной строкой

➡️ О технических деталях подготовки GigaAM-v2, применении подобных моделей для end-to-end понимания речи в GigaChat, ablation studies и невзлетевших экспериментах мы расскажем на конференции Салют, GigaChat! Технологии искусственного интеллекта. Не пропустите!

Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Николай из группы Распознавание и синтез речи очень оперативно провел сравнение разных Open-Source моделей после выхода GigaAM-v2. Спасибо!
Forwarded from Nikolay V. Shmyrev
Обновил результаты c GigaAMv2. Хорошее обновление, хорошо стало редкие слова распознавать.
Уже через пару часов начнётся конференция Салют, GigaChat!

Ждём всех, кто зарегистрировался на офлайн часть с 11:30 в Воробьёвы Холл по адресу: г. Москва, ул. Косыгина д.28, стр.1 

Онлайн участникам нужно авторизоваться в Личном кабинете JUG Ru Group. Это можно сделать прямо на сайте конференции по кнопке в плеере.

Подробности в канале конференции.

Если ещё не успели зарегистрироваться, но хотите послушать доклады онлайн, переходите на сайт и заполняйте заявку на онлайн участие: ссылка на трансляцию придёт в течение нескольких минут.

До встречи!
Релиз Giga-Embeddings-instruct! (ссылка на hugging-face)

Мы выложили в открытый доступ эмбеддинг модель Giga-Embeddings-instruct.

Giga-Embeddings-instruct занимает 2-ое(*) место в бенчмарке ruMTEB. Следующая после нас модель это e5-mistral-7b-instruct, которая имеет в 3 раза больше параметров (~7Б у mistral, –2.5B у нас).

Размер контекста модели 4096. Более 60 различных источников данных были использованы для обучения модели. Модель можно использовать для всех типов дискриминативных задач – классификация, поиск, ранжирование, и т.д.

За основу мы взяли GigaChat-pretrain-3B, заменили внимание с decoder на encoder, в качестве агрегации использовали Latent Attention Pooling.

(*) Модель на первом месте пока не выложена в опенсорс на момент написания поста 27.12.
Салют, GigaDev!

Команда GigaChat поздравляет всех с приходящим Новым Годом! За этот год мы сделали очень многое, чтобы развивать ИИ, и надеемся, что в следующем году сможем сделать еще больше. Спасибо всем, кто работал с нами и кто пользуется GigaChat, все это ради Вас!

Перед праздниками хотим поделиться записями докладов с прошедшей 17 декабрая конференции "Салют, GigaChat!".

1. GigaChain: создание AI-агентов на практике
2. Как научить LLM слышать: GigaAM 🤝 GigaChat Audio
3. Новости команды TTS SberDevices
4. Зрение в GigaChat
5. От теории к практике: построение надежного LLM-сервиса
6. GigaChat.Pretrain
7. GigaChat.Alignment
8. Эмбеддинги на GigaChat
9. Ассистент на LLM

Спасибо всем за этот чудесный год и хороших Вам праздников!
🚀 Релиз новой модели GigaChat-20B-A3B-instruct-v1.5!

Представляем обновленную версию с улучшенным alignment, что привело к значительному росту метрик арен

📈 Результаты:
• Arena Hard RU: 20.8 → 29.6 (+8.8)
• Arena General: 41.1 → 49.1 (+8)
• остальные метрики на тех же значениях

🔋 Поддержка контекста: 131К токенов

🎉 Важно! Модель теперь доступна в популярных инструментах:
llama.cpp
ollama
llama-cpp-python
lm-studio, небольшой гайд.

⚡️ На М4 Pro в Q6 достигает 52 token / sec

💾 Мы подготовили различные GGUF квантизации для тестирования под разные задачи и ресурсы.

🔗 Ссылки:
• HuggingFace (fp32, bf16, int8)
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)
Forwarded from Al Talent Hub
30 мин до Open Talks Special раскрываем карты!

🦇 Наш секретный гость:
Гриша Лелейтнер, Head of ML, LLM в GigaChat [Сбер].

Обсудим open-source LLM на русском и как DeepSeek меняет правила игры. На твои вопросы ответят эксперты, которые не просто знают, а создают русскоязычные LLM на практике.

✏️ Оставляй вопросы в комментариях к этому посту!

#OpenTalks
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉 GigaChat 2.0 — полностью обновлённая линейка моделей!

Салют! Мы рады представить Вам новые GigaChat 2 Lite, Pro и Max модели. За полгода мы проделали колоссальную работу и делимся результатами в хабр статье.

Ключевые обновления:
- Контекст до 128 тысяч токенов — в 4 раза больше!
- Значительно улучшенные обучающие данные
- Усовершенствованный Alignment и RLHF
- Улучшенные функциональные вызовы
- Повышенное качество понимания инструкций

🏆 Впечатляющие результаты:
- GigaChat 2 MAX занял 1-е место в бенчмарке MERA, обойдя GPT-4o!
- В ru_llm_arena: 82,5 балла (было 72,5)
- В arena_hard_ru: 83,5 балла (было 67,0)
- GigaChat 2 Lite ≈ прежний GigaChat Pro
- GigaChat 2 Pro ≈ прежний GigaChat MAX

Особенно заметен прогресс в точных и естественных науках. Ответы стали более естественными и близкими к живому общению.

Первыми могут попробовать новые модели могут пользователи с помощью API, уже сейчас через Playground — пользовательском интерфейсе для продвинутой работы с промптами!
🔥 Как FP8-вычисления ускоряют обучение больших моделей?

Когда-то переход на FP16 в машинном обучении был настоящим вызовом — приходилось бороться с переполнением чисел, потерей точности и нестабильностью тренировки. Со временем появился BF16, который совместил в себе диапазон FP32 и компактность FP16, сильно упростив работу и удешевив обучение моделей.

Но прогресс не стоит на месте: хочется использовать ещё более компактный тип FP8, который может ускорить вычисления теоретически аж в 4 раза по сравнению с FP32.

Звучит круто, но на практике есть сложности: FP8 бывает разным. Самые распространённые форматы:

🔸 E4M3 — шире диапазон чисел, ниже точность (подходит для активаций)
🔸 E5M2 — точнее числа, но уже диапазон (лучше для весов)

Из-за того, что в FP8 всего 8 бит на число, быстро возникают проблемы переполнения или, наоборот, слишком сильного округления. Поэтому использовать FP8 напрямую для всех операций пока невозможно. Нужно хитро подбирать форматы и аккуратно контролировать масштаб данных.

В GigaChat мы начали внедрять FP8 постепенно, сфокусировавшись сначала на наиболее подходящей для него операции — перемножении матриц (GEMM). Но даже здесь возникли свои сложности: активации и веса всё ещё хранятся в BF16, а значит, каждую операцию нужно предварять конвертацией типов:

активации (BF16) → FP8
веса (BF16) → FP8
перемножение матриц в FP8
результат (FP8) → обратно в BF16

Без специальных оптимизаций эти постоянные преобразования приводят к огромным накладным расходам. И именно здесь критически важен torch.compile: он автоматически объединяет цепочки таких операций, избавляясь от ненужных промежуточных шагов и резко снижая задержки и копирования.

Несмотря на сложности, мы уже смогли ускорить тренировку на впечатляющие 27%, полностью сохранив точность модели 🚀

Что можно делать дальше:

🔸 Сократить количество BF16-активаций там, где это возможно без потери качества
🔸 Переводить межузловые коммуникации на FP8

⚡️Будем держать вас в курсе следующих оптимизаций! Stay tuned

P.S. Большое спасибо GigaChat Max 2.0 за анимацию!
🔥 FP8 mixed precision — где и как DeepSeek снизили точность вычислений?

В прошлом посте мы разобрали, как использование FP8 для матричных операций (GEMM) ускоряет обучение моделей. Теперь давайте посмотрим, какие методы и оптимизации FP8 применялись при разработке DeepSeek-V3 — одной из лучших моделей на данный момент.

⚡️ Особенности FP8 GEMM от DeepSeek

Просто перевести все вычисления в FP8 недостаточно. В обучении встречаются выбросы (outliers) в активациях, весах и градиентах — редкие, но экстремальные значения, которые сильно искажают точность при квантовании. Если их не учитывать, модель может потерять качество.

Вот какие техники использовались в DeepSeek-V3 для FP8-обучения:

🔹 Точечное (fine-grained) квантование
Вместо квантования тензоров целиком они разбиваются на небольшие группы:
▪️ Активации — на «плитки» (tile-wise) 1×128
▪️ Веса — на блоки (block-wise) 128×128
Активации более подвержены выбросам, поэтому требуют более аккуратного квантования. Этот метод снижает влияние выбросов, так как масштабирование подгоняется под меньшие группы элементов.

🔹 FP32-аккумуляция
FP8 ограничен по точности из-за небольшого количества бит для мантиссы. Чтобы минимизировать ошибки округления, промежуточные результаты GEMM копируются в FP32-регистры CUDA Cores и только потом суммируются.
Использование FP32 для аккумуляции выходов тензорных ядер позволяет значительно снизить ошибки, которые возникают при суммировании большого числа результатов умножения маленьких матриц в FP8.

🔥 Другие важные оптимизации

🔹 Использование E4M3 вместо гибридных форматов
Ранее в FP8-обучении использовали гибридные форматы:
▪️ E4M3 для Fprop (прямой проход)
▪️ E5M2 для Dgrad / Wgrad (обратный проход)

В DeepSeek-V3 все операции перевели на E4M3, так как он имеет большую мантиссу → выше точность. Ограниченный динамический диапазон компенсируется tile/block-wise масштабированием.

🔹 Экономия памяти и ускорение коммуникации
▪️ Low-precision оптимизатор — моменты AdamW хранятся в BF16, а мастер-веса и градиенты — в FP32.
▪️ FP8-кеширование активаций — активации сохраняются в FP8 после Fprop, что значительно экономит память.
▪️ Сжатие коммуникации — в распределённом обучении передача данных между узлами — узкое место. В DeepSeek-V3 для части коммуникаций активации перед отправкой сжимаются в FP8, что по заявлениям авторов уменьшает накладные расходы на передачу данных. Однако часть коммуникаций все же сохраняется в BF16 в критических местах.

И главное: качество модели практически не страдает. Ошибка по сравнению с BF16-обучением остаётся в пределах 0.25%, что укладывается в статистическую погрешность.

Авторы не только подробно описали свою методику, но и выложили в open-source реализацию FP8 GEMM с fine-grained scalingDeepGEMM.

Более маленькие типы данных вроде FP8 и bf16 — это не только про ускорение матричных вычислений, но и про эффективное управление памятью и оптимизацию коммуникаций. И как показали DeepSeek, правильная интеграция этих техник позволяет обучать очень большие модели без потери качества!🚀
🚀 GigaChat 2 стал мультимодальным и уже доступен в боте и на сайте

Обновление серьёзное: модель научилась понимать не только текст, но и голос, изображения, ссылки и документы.

Что прокачали:

🔊 Аудио
Теперь GigaChat нативно понимает голос: на вход в модель поступает не просто распознанная речь, а вся аудиозапись целиком. Это позволяет взаимодействовать с моделью не только на русском, но и на английском, точнее понимать запросы с узко-специализированными терминами.

📎 Ссылки и документы
Файлы больше не грузятся в контекст целиком. Вместо этого — метаинформация и function call по требованию. Можно кидать сразу несколько ссылок, а в контексте может содержаться несколько документов, и модель будет работать с ними осмысленно.

📽 Видео по ссылке
С VK, RuTube — вытаскивается аудио, подаётся в модель целиком. GigaChat понимает, о чём речь, и умеет выдать краткое содержание или ответить на вопрос.

🖼 Зрение
Поддержка OCR, локализация объектов, понимание структуры изображений, обработка сканов документов, математических выражений, графиков.

⚙️ Function calling
Под капотом — гибкая система вызова внешних функций: работа с файлами, парсинг ссылок, интернет-поиск. Всё вызывается по необходимости в зависимости от запроса.

🧠 Контекст вырос, галлюцинаций меньше, лучше следование инструкциям и понимание длинных запросов.


💬 Попробуйте новые возможности прямо сейчас — в боте или на giga.chat
Please open Telegram to view this post
VIEW IN TELEGRAM
😎 Знаете ли вы, что GigaChat идеально интегрируется с самыми популярными фреймворками для создания LLM-приложений и мультиагентных систем – LangChain и LangGraph? 🦜🔗

Всё благодаря GigaChain (GitVerse, GitHub) — набору решений для быстрой и удобной разработки LLM-приложений и агентов. Что в арсенале:

• langchain-gigachat — партнерский пакет для подключения Гиги к LangChain
• gigachat — клиентская библиотека для GigaChat API
• gpt2giga — прокси OpenAI → GigaChat ⚡️ n8n, Aider, RooCode, LangFlow и другие заработают с гигой из коробки

Полная совместимость с LangChain и LangGraph
👉 ReAct, function calling, RAG, memory — работает всё
👉 Python и JavaScript, Java — скоро

Быстрый старт:

# pip install langchain-gigachat
from langchain_gigachat import GigaChat

llm = GigaChat(credentials="GIGA_KEY", model="GigaChat-2-Max")
llm.invoke("Переведи: Hello, world!")

Пример 🤖ReAct-агента с поиском:

# pip install langgraph duckduckgo-search
from langgraph.prebuilt import create_react_agent
from langchain_community.tools import DuckDuckGoSearchRun

agent = create_react_agent(llm, tools=[DuckDuckGoSearchRun()])
agent.invoke(
{"messages": [("user", "Какой курс биткоина в рублях?")]}
)

К такому агенту можно подключить готовые 🔗MCP-сервера. Например, подключим сервер, позволяющий агенту работать с диском:

# pip install langchain_mcp_adapters
from langchain_mcp_adapters.client import MultiServerMCPClient

async with MultiServerMCPClient(
{
"filesystem": {
"command": "npx",
"args": ["-y", "@modelcontextprotocol/server-filesystem", "."],
}
}
) as client:
agent = create_react_agent(llm, tools=[DuckDuckGoSearchRun()] + client.get_tools())
await agent.ainvoke({"messages": [("user", "Сохрани курс биткоина в рублях в файл btc.txt")]})

Посмотрим, что получилось:

> cat btc.txt
> 7 083 821.138 RUB

Агент справился, скомбинировав вызовы тулов из разных источников - сначала нашел информацию о курсе, а затем создал файл на диске с найденными данными.

Репозитарий (GitVerse, GitHub) и десятки других примеров: агенты, чат-боты, RAG, MCP-агент и другие

Попробуй запустить готовые примеры, чтобы начать погружаться в разработку LLM-приложений с Гигой. А ещё, каждому разработчику – миллион токенов в Freemium-тарифе при авторизации через Сбер ID для теста всех моделей GigaChat.
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Как мы научили GigaChat слышать: погружение в аудиомодальность

Опубликовали на Хабр технический разбор аудиомодальности GigaChat: архитектура, обучение, метрики и демо‑сценарии.

🔊 Зачем аудимодальность?
Связка распознавание речи (ASR) + GigaChat теряла смысловую информацию и не учитывала нюансы речи. End‑to‑end‑модель считывает звук напрямую и держит длинный аудиоконтекст.

🧠 Как учили
1. Audio-only Encoder Pre-training на 700k часов аудио.
2. Encoder ASR Fine-tuning на 100k часов аудио с транскрипциями.
3. Audio ⇄ Text Representations Alignment. С помощью облегчённого декодера GigaChat Lite мы согласовываем векторы аудио-энкодера с латентным пространством LLM. Такой «тёплый старт» сокращает число итераций на следующем этапе и экономит GPU-время.
4. Audio SFT GigaChat 2 Max — 10k часов на широком спектре задач (ASR, QA, Captioning, function calling, long-form summarization, ...).

📊 Результаты
• Side-by-Side GigaChat Audio vs ASR + GigaChat: 0.68 vs 0.32 — GigaChat Audio отвечает по существу, без добавления ложной информации, лучше понимает термины и английскую речь, справляется с анализом сцены и слышимости речи.
• Диалоговые свойства на русском языке на уровне GPT-4o (оценка людьми по 1200 диалогам в разрезе 7 критериев).
• Незначительная деградация базовых метрик: MMLU / IFEval просели ≤ 3 %.
• Обработка аудиозаписей до 170 минут.

Сценарии использования
📺 Краткое содержание — суммаризация часовых видео по аудиодорожке → https://giga.chat/link/gcscNrBMbT
🧑‍🎓 Языковой репетитор — интерактивная грамматика → https://giga.chat/link/gcsasCtOPX
📊 Анализ презентаций — темп, паузы, советы → https://giga.chat/link/gcsculCfiH
🌆 Описание звуковой сцены — неречевые аудио → https://giga.chat/link/gcsgenSGHJ

🖼 Экспериментальная мультимодальность: Vision + Audio
Последовательное дообучение позволяет поддерживать мультимодальный контекст без потерь в понимании изображений и аудио.


👉 Тестируйте уже сейчас: giga.chat или @gigachat_bot.
🚀 MCP-серверы: добавляем ризонинг, ИИ-детектор, голос и генерацию изображений в AI-агента за 5 минут

Если вы делаете агентов, вам обязательно стоит познакомиться с возможностями, которые предоставляют MCP-серверы. С их помощью можно за считанные минуты подключить к своему агенту дополнительные инструменты. А еще вам наверняка пригодятся серверы из экосистемы Сбера. Представляем готовые MCP-серверы от команды GigaChain:

🧠 Think MCP: LLM-ризонинг
GitHub 🔹 GitVerse
Помогает в решении сложных reasoning-задач

MCP Giga Checker
GitHub 🔹 GitVerse
Инструмент для юрлиц, определяющий создан ли текст человеком или сгенерирован с помощью ИИ

🖼️ MCP Kandinsky: из промпта в PNG за 10 сек
GitHub 🔹 GitVerse
Генерации изображений с помощью API Kandinsky

🎙️ MCP SaluteSpeech: добавляем голос, синтез и распознавание в 3 строчки кода
GitHub 🔹 GitVerse
Голосовой ассистент на базе LLM

Репозитарий GigaChain (GitHub, GitVerse) и десятки других решений: агенты, чат-боты, RAG и другие.
Please open Telegram to view this post
VIEW IN TELEGRAM
🦜 Как устроен GigaChat: от триллионов токенов до reasoning

📆 Уже завтра, 30 мая
📍 DataFest by Sber | Офлайн в Москве и онлайн по всей России
🕐 Доклад Фёдора Минькина — 12:40 (МСК)

Если вы работаете с LLM, интересуетесь мультимодальным обучением и хотите узнать практические аспекты создания больших языковых моделей — нельзя пропустить выступление Фёдора Минькина, CTO GigaPlatform.

🧠 В докладе:
• Какие данные и зачем собирают для pretrain'а
• Как выжать максимум из дорогого обучения
• Как SFT-модель собирается из доменных экспертов
• Как GigaChat обучают рассуждениям
• Как DPO и GRPO прокачивают глубину и полезность модели
• Почему мультимодальность — это не только про изображения
• Каких успехов мы достигли в генерации речи

💬 А ещё можно будет прямо на месте протестировать GigaChat Voice Mode — голосовое взаимодействие с GigaChat в реальном времени, и расспросить разработчиков GigaChat Audio о всех технических деталях. Только офлайн.

🔗 Подключиться онлайн можно по ссылке: https://ods.ai/events/fest2025-sber-msc
🧪 А чтобы всё пощупать — приходите в офлайн.

До встречи на DataFest!
Please open Telegram to view this post
VIEW IN TELEGRAM
GigaAM: Efficient Self-Supervised Learner for Speech Recognition

Наша статья принята на InterSpeech 2025 — крупнейшую в мире конференцию по обработке речи. Уже в августе представим ее в Роттердаме 🔥

В статье мы предлагаем подход к self-supervised предобучению для моделей распознавания речи:
• HuBERT-CTC — семантические целевые переменные из CTC-энкодера вместо низкоуровневых (wav2vec2.0, BEST-RQ, HuBERT stage-1)
• Достигаем лучшего WER среди open-source моделей на русском языке (до −50% к Whisper-large-v3).

📖 arXiv: https://arxiv.org/abs/2506.01192

👩‍💻 GitHub: https://github.com/salute-developers/gigaam

🐶 GitVerse: https://gitverse.ru/GigaTeam/GigaAM


📌 Ранее мы уже рассказывали о GigaAM, но в этой статье собраны дополнительные ценные результаты:
• Probing: HuBERT-CTC формирует более полезные представления
• Ablation study: обгоняем wav2vec2.0, HuBERT, BEST-RQ
• Исследуем scaling: как влияет размер модели (30M–500M), объём unlabeled и labeled данных
• Pretrain с динамическими масками self-attention: позволяет дообучать модель как в streaming, так и full-context режиме без повторного дорогостоящего предобучения


Помимо сервисов распознавания речи наш подход успешно применяется в аудиомодальности GigaChat, подробнее — в статье на Хабр

Ждем вас в комментариях для обсуждения self-supervised learning в аудио!
Please open Telegram to view this post
VIEW IN TELEGRAM