OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [2/2]
Во второй части обзора статьи мы подробно поговорим о тренировке модели и разберём разницу между implicit и explicit learning.
Обучение модели
Обучение модели можно разделить на два больших этапа — modality-specific и omni-modal части соответственно, LLM-backbone при этом берётся предобученная (авторы используют Qwen2.5-7B-Instruct).
Обучение vision-модулей состоит из следующих стадий:
- Stage 1: Vision Projector Alignment — учится только vision-проектор, решается задача генерации простых описаний.
- Stage 2: Vision Encoder Alignment — учатся vision-энкодер и vision-проектор.
- Stage 3: Vision Pre-training — core-стадия, vision-энкодер заморожен, цель — finetune vision-проектора и LLM. Используются мультимодальные данные, модель учится интерпретировать и генерировать подписи к картинкам.
- Stage 4: Image Instruction Tuning — finetune модели на задачи vision instruction following: ответы на общие и knowledge-based-вопросы, генерация сложных подписей, logical и vision reasoning, интерпретация документов, обработка диаграмм, etc. Учатся все модули.
- Stage 5: Video Instruction Tuning — финальная стадия, все части модели учатся на задачу понимания видео (распознавание активности (activity recognition); трекинг объекта во времени (по фреймам), time-sensitive QA). Цель — получить у модели способность к temporal reasoning.
После vision-этапа авторы получают «vision preliminary checkpoint» — достаточно хорошо обученные на vision-задачи энкодер, проектор и LLM.
Обучение аудиомодулей делится на две стадии:
- Stage 1: Audio Projector & Encoder Alignment. Параметры LLM и vision-части заморожены, учимся на задачи audio-based QA, captioning, ASR. Цель — обучить проектор аудиопредставлениям, согласованным с семантическим пространством языковой модели.
- Stage 2: Audio Instruction Tuning: параметры LLM не заморожены, LLM учится вместе с аудиоэнкодером и аудиопроектором. Учимся на все те же задачи + на задачу перевода речи; идея стадии в том, что разнообразные аудиальные задачи при обученном проекторе помогут аудиоэнкодеру выучить и низкоуровневые акустические признаки, и высокоуровневые семантические представления.
Omni-Modal Joint Training
Во время мультимодального этапа обучения vision- и аудиоэнкодеры заморожены, учатся все остальные модули (OmniAlignNet, проекторы и LLM). В статье описываются два подхода: implicit и explicit learning. Implicit learning использует существующие датасеты Video QA, где модель неявно учится интегрировать обе модальности, не получая однозначной информации о том, какая часть ответа взята из видеоряда, а какая — из звука. Explicit learning использует синтетические данные, в которых указывается взаимосвязь между модальностями. Главная разработка авторов — data engine, генерирующий отдельные описания для видео и аудио, а затем использующий LLM с ризонингом (Deepseek R1) для создания объединенных подписей, указывающих на то, как визуальная и аудиальная информация дополняют друг друга. Проблема, которую решает этот подход — устранение «modality-specific hallucination» (fig 1). Ключевой вывод мультимодальной стадии: описание видео, основанное на одной модальности, часто неточно; интеграция обеих модальностей критична, и explicit learning эффективно решает эту задачу (fig 2).
Финальная стадия обучения включает RL с использованием GRPO. Важный результат: GRPO на audio-visual-данных сходится быстрее и качественнее, чем на чисто визуальных, что подтверждает ценность мультимодального подхода (fig 3).
Заключение
В статье OmniVinci представлен комплексный подход к созданию мультимодальных языковых моделей, включающий архитектурные инновации и продуманную стратегию обучения с разделением на modality-specific- и omni-modal-этапы. Ключевой вклад — систематическое исследование подходов к мультимодальному обучению. Авторы демонстрируют, что explicit learning с синтетическими данными эффективнее решает проблему modality-specific hallucination и улучшает общее качество модели.
Екатерина Козлова❣ Специально для Speech Info
Во второй части обзора статьи мы подробно поговорим о тренировке модели и разберём разницу между implicit и explicit learning.
Обучение модели
Обучение модели можно разделить на два больших этапа — modality-specific и omni-modal части соответственно, LLM-backbone при этом берётся предобученная (авторы используют Qwen2.5-7B-Instruct).
Обучение vision-модулей состоит из следующих стадий:
- Stage 1: Vision Projector Alignment — учится только vision-проектор, решается задача генерации простых описаний.
- Stage 2: Vision Encoder Alignment — учатся vision-энкодер и vision-проектор.
- Stage 3: Vision Pre-training — core-стадия, vision-энкодер заморожен, цель — finetune vision-проектора и LLM. Используются мультимодальные данные, модель учится интерпретировать и генерировать подписи к картинкам.
- Stage 4: Image Instruction Tuning — finetune модели на задачи vision instruction following: ответы на общие и knowledge-based-вопросы, генерация сложных подписей, logical и vision reasoning, интерпретация документов, обработка диаграмм, etc. Учатся все модули.
- Stage 5: Video Instruction Tuning — финальная стадия, все части модели учатся на задачу понимания видео (распознавание активности (activity recognition); трекинг объекта во времени (по фреймам), time-sensitive QA). Цель — получить у модели способность к temporal reasoning.
После vision-этапа авторы получают «vision preliminary checkpoint» — достаточно хорошо обученные на vision-задачи энкодер, проектор и LLM.
Обучение аудиомодулей делится на две стадии:
- Stage 1: Audio Projector & Encoder Alignment. Параметры LLM и vision-части заморожены, учимся на задачи audio-based QA, captioning, ASR. Цель — обучить проектор аудиопредставлениям, согласованным с семантическим пространством языковой модели.
- Stage 2: Audio Instruction Tuning: параметры LLM не заморожены, LLM учится вместе с аудиоэнкодером и аудиопроектором. Учимся на все те же задачи + на задачу перевода речи; идея стадии в том, что разнообразные аудиальные задачи при обученном проекторе помогут аудиоэнкодеру выучить и низкоуровневые акустические признаки, и высокоуровневые семантические представления.
Omni-Modal Joint Training
Во время мультимодального этапа обучения vision- и аудиоэнкодеры заморожены, учатся все остальные модули (OmniAlignNet, проекторы и LLM). В статье описываются два подхода: implicit и explicit learning. Implicit learning использует существующие датасеты Video QA, где модель неявно учится интегрировать обе модальности, не получая однозначной информации о том, какая часть ответа взята из видеоряда, а какая — из звука. Explicit learning использует синтетические данные, в которых указывается взаимосвязь между модальностями. Главная разработка авторов — data engine, генерирующий отдельные описания для видео и аудио, а затем использующий LLM с ризонингом (Deepseek R1) для создания объединенных подписей, указывающих на то, как визуальная и аудиальная информация дополняют друг друга. Проблема, которую решает этот подход — устранение «modality-specific hallucination» (fig 1). Ключевой вывод мультимодальной стадии: описание видео, основанное на одной модальности, часто неточно; интеграция обеих модальностей критична, и explicit learning эффективно решает эту задачу (fig 2).
Финальная стадия обучения включает RL с использованием GRPO. Важный результат: GRPO на audio-visual-данных сходится быстрее и качественнее, чем на чисто визуальных, что подтверждает ценность мультимодального подхода (fig 3).
Заключение
В статье OmniVinci представлен комплексный подход к созданию мультимодальных языковых моделей, включающий архитектурные инновации и продуманную стратегию обучения с разделением на modality-specific- и omni-modal-этапы. Ключевой вклад — систематическое исследование подходов к мультимодальному обучению. Авторы демонстрируют, что explicit learning с синтетическими данными эффективнее решает проблему modality-specific hallucination и улучшает общее качество модели.
Екатерина Козлова
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍4🔥4
BFA: Real-time Multilingual Text-to-Speech Forced Alignment
Сегодня разберём статью о Bournemouth Forced Aligner (BFA) — достойном преемнике знаменитого Montreal Forced Aligner (MFA).
Forced Alignment — это процедура определения временных границ фонем в аудио. Долгое время популярным решением был точный, но медленный MFA на HMM-GMM. Современные нейросетевые решения, вроде WhisperX, быстрее, но часто уступают старичку MFA в качестве. Приходится выбирать: либо скорость, либо точность. Новая статья о BFA предлагает решение этой проблемы.
Что под капотом
1. Contextless Universal Phoneme Encoder (CUPE). Энкодер анализирует акустику каждого фрейма «без контекста», то есть независимо от соседних фонем. Это ключевое отличие от классических моделей, использующих трифоны, и одна из главных причин прироста скорости. Универсальность достигается за счёт обучения на широком наборе фонем из разных языков (LibriSpeech, MLS), что позволяет модели отлично обобщаться. Авторы показали, что модель, обученная на семи европейских языках (без английского), успешно справляется с выравниванием английской речи.
2. CTC-декодер. CTC-алгоритм выравнивает последовательность фонем относительно аудио, но авторы модифицировали его для forced alignment. Целевая последовательность для декодера строится как [blank, p1, blank, p2, ...]. Эти blank-токены между фонемами используются для явного моделирования пауз и межфонемных промежутков.
3. Multi-task-обучение. Используется архитектура с двумя головами: одна для 67 классов фонем, другая для 17 укрупнённых фонемных групп.
Что это даёт на практике
Предсказание onset и offset. Это главная фишка. BFA предсказывает не только начало, но и конец каждой фонемы, что позволяет моделировать межфонемные паузы в отличие от традиционных алайнеров.
Отличная скорость. За счёт бесконтекстной архитектуры BFA работает до 240 раз быстрее MFA. Например, обработка корпуса Buckeye занимает 1 час против 7 дней у MFA.
Умный декодинг. Система использует иерархический подход (divide-and-conquer), разбивая аудио по найденным паузам на независимые сегменты и выравнивая каждый отдельно. Специальный постпроцессинг гарантирует, что 100% фонем из транскрипции будут найдены и расставлены в аудио.
Что по метрикам
Recall у BFA сопоставим с MFA, особенно на разумных порогах в 40–60 мс. Precision получился чуть ниже, но авторы заявляют, что это ожидаемый эффект: BFA предсказывает вдвое больше границ (onset + offset), а сравнивается с эталонной разметкой, где есть только onset.
И да, название BFA выбрано не случайно: авторы продолжают традицию называть форс-алайнеры в честь города или университета, где над ними ведётся основная работа. Так Montreal Forced Aligner был связан с Монреалем, а Bournemouth Forced Aligner назван в честь Борнмута.
Владимир Гогорян❣ Специально для Speech Info
Сегодня разберём статью о Bournemouth Forced Aligner (BFA) — достойном преемнике знаменитого Montreal Forced Aligner (MFA).
Forced Alignment — это процедура определения временных границ фонем в аудио. Долгое время популярным решением был точный, но медленный MFA на HMM-GMM. Современные нейросетевые решения, вроде WhisperX, быстрее, но часто уступают старичку MFA в качестве. Приходится выбирать: либо скорость, либо точность. Новая статья о BFA предлагает решение этой проблемы.
Что под капотом
1. Contextless Universal Phoneme Encoder (CUPE). Энкодер анализирует акустику каждого фрейма «без контекста», то есть независимо от соседних фонем. Это ключевое отличие от классических моделей, использующих трифоны, и одна из главных причин прироста скорости. Универсальность достигается за счёт обучения на широком наборе фонем из разных языков (LibriSpeech, MLS), что позволяет модели отлично обобщаться. Авторы показали, что модель, обученная на семи европейских языках (без английского), успешно справляется с выравниванием английской речи.
2. CTC-декодер. CTC-алгоритм выравнивает последовательность фонем относительно аудио, но авторы модифицировали его для forced alignment. Целевая последовательность для декодера строится как [blank, p1, blank, p2, ...]. Эти blank-токены между фонемами используются для явного моделирования пауз и межфонемных промежутков.
3. Multi-task-обучение. Используется архитектура с двумя головами: одна для 67 классов фонем, другая для 17 укрупнённых фонемных групп.
Что это даёт на практике
Предсказание onset и offset. Это главная фишка. BFA предсказывает не только начало, но и конец каждой фонемы, что позволяет моделировать межфонемные паузы в отличие от традиционных алайнеров.
Отличная скорость. За счёт бесконтекстной архитектуры BFA работает до 240 раз быстрее MFA. Например, обработка корпуса Buckeye занимает 1 час против 7 дней у MFA.
Умный декодинг. Система использует иерархический подход (divide-and-conquer), разбивая аудио по найденным паузам на независимые сегменты и выравнивая каждый отдельно. Специальный постпроцессинг гарантирует, что 100% фонем из транскрипции будут найдены и расставлены в аудио.
Что по метрикам
Recall у BFA сопоставим с MFA, особенно на разумных порогах в 40–60 мс. Precision получился чуть ниже, но авторы заявляют, что это ожидаемый эффект: BFA предсказывает вдвое больше границ (onset + offset), а сравнивается с эталонной разметкой, где есть только onset.
И да, название BFA выбрано не случайно: авторы продолжают традицию называть форс-алайнеры в честь города или университета, где над ними ведётся основная работа. Так Montreal Forced Aligner был связан с Монреалем, а Bournemouth Forced Aligner назван в честь Борнмута.
Владимир Гогорян
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤8👍5
Три статьи о новых подходах к обработке речи
Активация устройства без специального слова, новая архитектура для верификации спикера и необычный подход к оптимизации памяти — сегодня разберём несколько идей о том, как работать с речью.
Adaptive Knowledge Distillation for Device-Directed Speech Detection
Интонационный споттер от Apple — модель на 5 млн параметров, которая способна по интонации понимать, когда человек обращается к колонке. Авторы утверждают, что она уже используется на некоторых смартфонах. Сейчас в работе версия для колонок, но пока они столкнулись с проблемой в данных, которую не описывают подробно. Можно предположить, что проблема в более сложной акустике.
Модель обучена на нескольких сотнях тысяч размеченных сэмплов и дополнительных псевдолейблах. Авторы одновременно учат и инферят общую тушку для трёх споттеров: Hey Siri, Siri и интонационного. По их словам, это позволяет существенно увеличить качество модели на всех трёх задачах.
Ещё очень помогает трёхуровневая дистилляция с ASR. Ученик — конформер. Сверху три адаптера для споттеров, а учитель — ASR на 80 млн параметров, 12 conformer-слоёв и энкодер.
MASV: Speaker Verification With Global And Local Context Mamba
Технология верификации голоса для смарт-очков от Meta* — стриминговая модель MASV, новая архитектура, в которой блоки ECAPA-TDNN дополняются Mamba-модулем. Такая комбинация позволяет учитывать и локальные, и глобальные зависимости, но остаётся достаточно лёгкой для того, чтобы работать на устройствах с ограниченными ресурсами и с длинными аудиовходами.
Модель оценивали на внутренних данных: в студийных условиях записали около 5 млн высказываний от 30 тысяч человек. Датасет получился действительно большим, качество предложенной модели на нём выглядит высоким. Но без оценки на реальных пользовательских сценариях для смарт-очков результаты могут оказаться нерепрезентативными: студийная запись на один микрофон не отражает типичные режимы работы устройства.
Unfolding A Few Structures for The Many: Memory-Efficient Compression of Conformer and Speech Foundation Models
Необычный подход к оптимизации памяти, которую модель потребляет во время инференса. Вместо того чтобы хранить десятки отдельных слоёв, авторы обучают небольшой трансформер с несколькими блоками так, чтобы одни и те же слои можно было последовательно использовать несколько раз. На инференсе это даёт логически более глубокую сеть без добавления новых параметров.
Большую модель и её варианты с разной логической глубиной тренируют совместно в одном цикле. Чтобы выровнять их поведение друг относительно друга, авторы добавляют самодистилляцию: минимизируют KL-дивергенцию между самой глубокой и самой короткой конфигурациями.
Качество компактной модели заметно уступает исходной глубокой архитектуре. Но при логическом дублировании слоёв (многократном прохождении через одни и те же блоки), сжатая модель практически догоняет большую, при этом потребляя меньше памяти.
Борис Шелудько❣ Специально для Speech Info
* Компания Meta признана экстремистской; её деятельность в России запрещена.
Активация устройства без специального слова, новая архитектура для верификации спикера и необычный подход к оптимизации памяти — сегодня разберём несколько идей о том, как работать с речью.
Adaptive Knowledge Distillation for Device-Directed Speech Detection
Интонационный споттер от Apple — модель на 5 млн параметров, которая способна по интонации понимать, когда человек обращается к колонке. Авторы утверждают, что она уже используется на некоторых смартфонах. Сейчас в работе версия для колонок, но пока они столкнулись с проблемой в данных, которую не описывают подробно. Можно предположить, что проблема в более сложной акустике.
Модель обучена на нескольких сотнях тысяч размеченных сэмплов и дополнительных псевдолейблах. Авторы одновременно учат и инферят общую тушку для трёх споттеров: Hey Siri, Siri и интонационного. По их словам, это позволяет существенно увеличить качество модели на всех трёх задачах.
Ещё очень помогает трёхуровневая дистилляция с ASR. Ученик — конформер. Сверху три адаптера для споттеров, а учитель — ASR на 80 млн параметров, 12 conformer-слоёв и энкодер.
MASV: Speaker Verification With Global And Local Context Mamba
Технология верификации голоса для смарт-очков от Meta* — стриминговая модель MASV, новая архитектура, в которой блоки ECAPA-TDNN дополняются Mamba-модулем. Такая комбинация позволяет учитывать и локальные, и глобальные зависимости, но остаётся достаточно лёгкой для того, чтобы работать на устройствах с ограниченными ресурсами и с длинными аудиовходами.
Модель оценивали на внутренних данных: в студийных условиях записали около 5 млн высказываний от 30 тысяч человек. Датасет получился действительно большим, качество предложенной модели на нём выглядит высоким. Но без оценки на реальных пользовательских сценариях для смарт-очков результаты могут оказаться нерепрезентативными: студийная запись на один микрофон не отражает типичные режимы работы устройства.
Unfolding A Few Structures for The Many: Memory-Efficient Compression of Conformer and Speech Foundation Models
Необычный подход к оптимизации памяти, которую модель потребляет во время инференса. Вместо того чтобы хранить десятки отдельных слоёв, авторы обучают небольшой трансформер с несколькими блоками так, чтобы одни и те же слои можно было последовательно использовать несколько раз. На инференсе это даёт логически более глубокую сеть без добавления новых параметров.
Большую модель и её варианты с разной логической глубиной тренируют совместно в одном цикле. Чтобы выровнять их поведение друг относительно друга, авторы добавляют самодистилляцию: минимизируют KL-дивергенцию между самой глубокой и самой короткой конфигурациями.
Качество компактной модели заметно уступает исходной глубокой архитектуре. Но при логическом дублировании слоёв (многократном прохождении через одни и те же блоки), сжатая модель практически догоняет большую, при этом потребляя меньше памяти.
Борис Шелудько
* Компания Meta признана экстремистской; её деятельность в России запрещена.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍6🔥5
VibeVoice Technical Report
Сегодня разберём статью о новой модели VibeVoice, которая с помощью next-token-диффузии синтезирует длинную речь от лица нескольких спикеров.
Авторы во многом ссылаются на свою предыдущую работу Multimodal Latent Language Modeling with Next-Token Diffusion, но там речь идёт совсем не о natural speech. Два главных преимущества их новой разработки:
— Трансформер, который используется в модели, предсказывает не дискретные токены, а латенты.
— VibeVoice может генерировать аудио длительностью до полутора часов.
Модель принимает на вход голосовые промпты и текстовые описания. Для того чтобы она лучше понимала контекст, авторы применяют два вида токенизации:
— Для дискретных токенов — look-up-table (кодбук, который из токена делает представление). Лосс кросс-энтропийный, получают сэмплированием.
— А для непрерывных данных берут 𝜎-VAE-энкодер, который предсказывает что-то похожее на векторные представления. Лосс — L2-диффузионный.
Диффузионная голова обучается end2end вместе с трансформером — предсказывает вход для VAE по последнему латенту трансформера.
Новая система токенизации сохраняет точность воспроизведения звука и значительно повышает эффективность вычислений при обработке длинных последовательностей. Непрерывность токенов позволяет уменьшить их количество до 7,5 на секунду. Сжатие данных, по сравнению с популярной моделью EnCodec, улучшается в 80 раз.
Посмотреть код и послушать демо можно на GitHub команды.
Евгений Шабалин❣ Специально для Speech Info
Сегодня разберём статью о новой модели VibeVoice, которая с помощью next-token-диффузии синтезирует длинную речь от лица нескольких спикеров.
Авторы во многом ссылаются на свою предыдущую работу Multimodal Latent Language Modeling with Next-Token Diffusion, но там речь идёт совсем не о natural speech. Два главных преимущества их новой разработки:
— Трансформер, который используется в модели, предсказывает не дискретные токены, а латенты.
— VibeVoice может генерировать аудио длительностью до полутора часов.
Модель принимает на вход голосовые промпты и текстовые описания. Для того чтобы она лучше понимала контекст, авторы применяют два вида токенизации:
— Для дискретных токенов — look-up-table (кодбук, который из токена делает представление). Лосс кросс-энтропийный, получают сэмплированием.
— А для непрерывных данных берут 𝜎-VAE-энкодер, который предсказывает что-то похожее на векторные представления. Лосс — L2-диффузионный.
Диффузионная голова обучается end2end вместе с трансформером — предсказывает вход для VAE по последнему латенту трансформера.
Новая система токенизации сохраняет точность воспроизведения звука и значительно повышает эффективность вычислений при обработке длинных последовательностей. Непрерывность токенов позволяет уменьшить их количество до 7,5 на секунду. Сжатие данных, по сравнению с популярной моделью EnCodec, улучшается в 80 раз.
Посмотреть код и послушать демо можно на GitHub команды.
Евгений Шабалин
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥8❤7👏3
Три идеи на тему обучения speech-моделей
Сегодня делимся подборкой трёх концептуально интересных работ про обучение speech-моделей. Первая — о контроле генерации на этапе декодирования, две остальные — о том, как аккуратнее стыковать речь и текст и обучать мультимодальные системы.
Length Aware Speech Translation for Video Dubbing
Авторы решают понятную боль: как управлять длиной выходной последовательности (перевода), а не полагаться на эвристики поверх beam search (например, штрафы/нормализации за длину). Нюанс таких эвристик в том, что они часто смещают ранжирование в сторону более коротких или более длинных гипотез.
В статье предлагают разбить генерацию на несколько режимов длины: short, normal, long. Вместо стандартного стартового токена (BOS/SOS) декодирование начинается со специального length-тега, и при обучении модель видит такие же теги — в итоге можно явно попросить «короткий» или «длинный» перевод.
Отдельно авторы модифицируют beam search: обычно на шаге прунинга оставляют top-k гипотез по скору. А тут при каждом прунинге стараются сохранять минимум по одной гипотезе каждого типа. Это важно для случаев, когда «длинная» ветка обычно не доживает до конца: модель быстро завершает декодирование на коротких вариантах, а потом может выясниться, что более длинный — был бы лучше.
Очевидный минус подхода: поддержка длинных гипотез — это дополнительные затраты по производительности, потому что генерация идёт дольше. Но сама идея «контролируем длину явно и держим разные длины в beam search» выглядит практичной.
Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs
Предположим, у нас есть текстовая LLM, и мы хотим научить систему работать и со звуком. Лобовой вариант — сразу добавить аудио в обучение и перейти в speech-режим. Но такой переход получается слишком резким: до этого модель обучалась только на тексте, а теперь получает аудиопредставления, и на этом стыке всё легко может развалиться.
Чтобы этого избежать, текст обычно не убирают сразу, а продолжают подавать его вместе с аудио, постепенно меняя пропорции: сначала почти один текст и немного аудио, потом аудио становится больше, текста меньше — и так далее, вплоть до режима «почти только аудио».
Здесь авторы пошли ещё дальше и делают это не на уровне целых примеров, а внутри одного сэмпла: часть токенов — текстовые, часть — аудио. За счёт этого переход получается ещё мягче: сначала в сэмпле почти один текст и немного аудио, потом аудио всё больше. В конце для таких смешанных примеров остаётся только аудио, а также чисто текстовые примеры.
Text-Enhanced Audio Encoder for Large Language Model based Speech Recognition via Cross-Modality Pre-training with Unpaired Audio-Text Data
Можно отдельно обучать аудиоэнкодер и отдельно — языковую модель, но дальше аудиочасть и LLM всё равно нужно «поженить». Авторы хотят сделать этот стык более гладким: чтобы при совмещении ничего не развалилось и текстовая часть LLM не деградировала.
Логика такая: выход аудиоветки дальше подаётся на вход LLM. Авторам важно, чтобы этот вход по форме и свойствам был ближе к тому, к чему LLM привыкла в текстовом режиме. Поэтому они добавляют отдельную текстовую ветку и общую часть — shared transformer blocks. Эти общие блоки обучаются на текстовом сигнале, за счёт этого выходы аудио- и текстовой веток становятся ближе по представлению, так что LLM проще работать с аудиовыходом.
Новизна тут скорее в подходе к обучению: вместо полностью раздельной тренировки (когда батчи идут либо аудио-, либо текстовые) в работе допускают совместное использование аудио и текста в одном батче — и за счёт этого обучение получается более стабильным.
Евгений Ганкович❣ Специально для Speech Info
Сегодня делимся подборкой трёх концептуально интересных работ про обучение speech-моделей. Первая — о контроле генерации на этапе декодирования, две остальные — о том, как аккуратнее стыковать речь и текст и обучать мультимодальные системы.
Length Aware Speech Translation for Video Dubbing
Авторы решают понятную боль: как управлять длиной выходной последовательности (перевода), а не полагаться на эвристики поверх beam search (например, штрафы/нормализации за длину). Нюанс таких эвристик в том, что они часто смещают ранжирование в сторону более коротких или более длинных гипотез.
В статье предлагают разбить генерацию на несколько режимов длины: short, normal, long. Вместо стандартного стартового токена (BOS/SOS) декодирование начинается со специального length-тега, и при обучении модель видит такие же теги — в итоге можно явно попросить «короткий» или «длинный» перевод.
Отдельно авторы модифицируют beam search: обычно на шаге прунинга оставляют top-k гипотез по скору. А тут при каждом прунинге стараются сохранять минимум по одной гипотезе каждого типа. Это важно для случаев, когда «длинная» ветка обычно не доживает до конца: модель быстро завершает декодирование на коротких вариантах, а потом может выясниться, что более длинный — был бы лучше.
Очевидный минус подхода: поддержка длинных гипотез — это дополнительные затраты по производительности, потому что генерация идёт дольше. Но сама идея «контролируем длину явно и держим разные длины в beam search» выглядит практичной.
Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs
Предположим, у нас есть текстовая LLM, и мы хотим научить систему работать и со звуком. Лобовой вариант — сразу добавить аудио в обучение и перейти в speech-режим. Но такой переход получается слишком резким: до этого модель обучалась только на тексте, а теперь получает аудиопредставления, и на этом стыке всё легко может развалиться.
Чтобы этого избежать, текст обычно не убирают сразу, а продолжают подавать его вместе с аудио, постепенно меняя пропорции: сначала почти один текст и немного аудио, потом аудио становится больше, текста меньше — и так далее, вплоть до режима «почти только аудио».
Здесь авторы пошли ещё дальше и делают это не на уровне целых примеров, а внутри одного сэмпла: часть токенов — текстовые, часть — аудио. За счёт этого переход получается ещё мягче: сначала в сэмпле почти один текст и немного аудио, потом аудио всё больше. В конце для таких смешанных примеров остаётся только аудио, а также чисто текстовые примеры.
Text-Enhanced Audio Encoder for Large Language Model based Speech Recognition via Cross-Modality Pre-training with Unpaired Audio-Text Data
Можно отдельно обучать аудиоэнкодер и отдельно — языковую модель, но дальше аудиочасть и LLM всё равно нужно «поженить». Авторы хотят сделать этот стык более гладким: чтобы при совмещении ничего не развалилось и текстовая часть LLM не деградировала.
Логика такая: выход аудиоветки дальше подаётся на вход LLM. Авторам важно, чтобы этот вход по форме и свойствам был ближе к тому, к чему LLM привыкла в текстовом режиме. Поэтому они добавляют отдельную текстовую ветку и общую часть — shared transformer blocks. Эти общие блоки обучаются на текстовом сигнале, за счёт этого выходы аудио- и текстовой веток становятся ближе по представлению, так что LLM проще работать с аудиовыходом.
Новизна тут скорее в подходе к обучению: вместо полностью раздельной тренировки (когда батчи идут либо аудио-, либо текстовые) в работе допускают совместное использование аудио и текста в одном батче — и за счёт этого обучение получается более стабильным.
Евгений Ганкович
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤7🔥6⚡1
Хотя Speech Info нет ещё и года, некоторые итоги у нас уже имеются. Например, мы успели написать вместе с экспертами сотню с лишним разборов, осветить несколько крупных конференций (включая Interspeech и ICASSP) и начать собирать сообщество людей, которым интересна тема голосовых технологий.
В предновогодней публикации хотим вспомнить посты, которые больше всего читали в 2025-м. Если какой-то из них запомнился вам или, по вашему мнению, в топе чего-то не хватает, приходите делиться в комментарии!
Билингвальный ASR — уже в станциях и чате с Алисой
Важный релиз прошедшего года. Евгений Ганкович рассказал, с какими сложностями столкнулись инженеры группы ASR, пока делали Алису двуязычной. Ещё он поделился тем, как команде удалось не только не просадить, но и улучшить распознавание русского. Все подводные камни процесса — в нашем разборе.
Архитектура KWS от Яндекса: как колонка с Алисой выбирает, куда слушать
Рассказ о статье Multichannel Keyword Spotting for Noisy Conditions, которую наши исследователи представили на конференции Interspeech 2025 в Роттердаме. Разбираемся, как устроена архитектура KWS, объединяющая мультиканальный вход и attention-механизм для более точного распознавания голосовых команд в шумных помещениях.
Как Яндекс Браузер переводит видео с сохранением оригинальных голосов
В посте рассказали детали обновлённой версии перевода видео в Яндекс Браузере. В частности, разобрались за счёт чего технология умеет сохранять тембр и интонации оригинального голоса, а сам перевод стал точнее. Приглашаем освежить в памяти.
Обзор статей с ICASSP 25. Часть 1: шумоподавление в наушниках
В апреле в Индии прошла конференция ICASSP 2025, на которой побывал руководитель группы встроенного голосового ввода Алексей Рак. Интересного хватило на серию постов, самым востребованным из которых стал этот — о двух работах на тему шумоподавлении в наушниках.
WavChat: A Survey of Spoken Dialogue Models. Часть 1/4
Никита Рыжиков
Mamba-модели в задачах Speech Enhancement
Екатерина Кузина разобрала архитектуру Mamba в контексте Speech Enhancement. В посте описан пайплайн модели для таких задач, а также есть наглядное сравнение Mamba-блоков с transformer- и conformer-блоками. Если пропустили пост, зовём наверстывать упущенное.
Как TortoiseTTS изменил правила игры в синтезе речи
Роман Кайль рассказал историю появления TortoiseTTS и то, почему он стал важной вехой для современных TTS-моделей. В посте разбираемся, как комбинация трансформера и диффузии позволила одновременно моделировать интонацию и голос. А ещё — как инженер-одиночка смог собрать рабочую схему на восьми GPU и почему этот подход подхватили большие команды.
Желаем отличных праздников и чтобы интересного чтения хватило на все 12 предстоящих месяцев!
Speech Info
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍7🔥6
Лучшие статьи 2025 года: выбор авторов Speech Info. Часть 1
За прошедший год накопилось много интересных работ на тему голосовых технологий. Статьями, которые стоит перечитать и сохранить, поделились эксперты нашего канала. Продолжать список можнобесконечно в комментариях.
Beyond Transcription: Mechanistic Interpretability in ASR
Статья переносит mechinterp-инструментарий из NLP в ASR, делая это системно и на крупных моделях (Whisper-large-v3 и Qwen2-Audio). Авторы адаптируют logit lens, линейные пробы и activation patching под ASR и вводят новый метод Encoder Lens для «развертывания» промежуточных представлений энкодера в текст. Благодаря этому получается показать ряд не описанных ранее явлений (наличие неявной информации в энкодере; возможность предсказывать галлюцинации по residual декодера; механизм повторения токенов в self-attention).
Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition
Авторы предлагают метод delayed fusion для интеграции LLM в первый проход декодирования ASR, который принципиально отличается от классических shallow fusion и N-best rescoring тем, что:
1) применяет LLM‑оценки к гипотезам с задержкой и после прунинга в ходе поиска, тем самым резко сокращая число оцениваемых гипотез и LLM-вызовов при сохранении влияния LLM уже на первом проходе;
2) позволяет на лету ретокенизировать гипотезы по словесным границам и тем самым без переобучения использовать LLM с другой лексикой/токенизацией, тогда как стандартный shallow fusion требует совпадения словаря ASR и LM или дорогостоящего дообучения;
3) вводит настраиваемый механизм управления моментом вызова LLM (стратегии shortest-hypothesis fusion и fixed-interval fusion).
Music Flamingo: Scaling Music Understanding in Audio Language Models
Статья о новой ALM, специально заточенной под глубокое понимание музыки, включая вокальные композиции. Основные вклады авторов — создание масштабных датасетов MF-Skills и MF-Think с многоуровневыми описаниями и цепочками рассуждений, основанными на теории музыки, а также предложение поэтапного подхода к обучению, сочетающего дообучение на мультиязычных ASR-данных, тонкую настройку на музыкальных задачах и RL-стадию с GRPO.
Streaming Sortformer: Speaker Cache-Based Online Speaker Diarization with Arrival-Time Ordering
Работа о стриминговой диаризации: модель в реальном времени получает аудио и сразу выдаёт вероятности по спикерам, без классического каскада «сегментация → эмбеддинги → кластеризация». Ключевая идея — держать кэш эмбеддингов уже встреченных спикеров и подавать его вместе с текущим аудиофрагментом, постоянно обновляя (спикеры в кэше упорядочены по времени появления). Ограничение простое: число спикеров фиксировано архитектурно — модель нельзя безболезненно перенести на сильно большее количество, чем было на обучении. Зато на нескольких датасетах она обгоняет бейзлайны и прошлую офлайн-версию, оставаясь пригодной для реалтайм-сценариев.
Продолжение следует.
Статьи отобрали❣ Екатерина Козлова, Борис Шелудько
Speech Info
За прошедший год накопилось много интересных работ на тему голосовых технологий. Статьями, которые стоит перечитать и сохранить, поделились эксперты нашего канала. Продолжать список можно
Beyond Transcription: Mechanistic Interpretability in ASR
Статья переносит mechinterp-инструментарий из NLP в ASR, делая это системно и на крупных моделях (Whisper-large-v3 и Qwen2-Audio). Авторы адаптируют logit lens, линейные пробы и activation patching под ASR и вводят новый метод Encoder Lens для «развертывания» промежуточных представлений энкодера в текст. Благодаря этому получается показать ряд не описанных ранее явлений (наличие неявной информации в энкодере; возможность предсказывать галлюцинации по residual декодера; механизм повторения токенов в self-attention).
Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition
Авторы предлагают метод delayed fusion для интеграции LLM в первый проход декодирования ASR, который принципиально отличается от классических shallow fusion и N-best rescoring тем, что:
1) применяет LLM‑оценки к гипотезам с задержкой и после прунинга в ходе поиска, тем самым резко сокращая число оцениваемых гипотез и LLM-вызовов при сохранении влияния LLM уже на первом проходе;
2) позволяет на лету ретокенизировать гипотезы по словесным границам и тем самым без переобучения использовать LLM с другой лексикой/токенизацией, тогда как стандартный shallow fusion требует совпадения словаря ASR и LM или дорогостоящего дообучения;
3) вводит настраиваемый механизм управления моментом вызова LLM (стратегии shortest-hypothesis fusion и fixed-interval fusion).
Music Flamingo: Scaling Music Understanding in Audio Language Models
Статья о новой ALM, специально заточенной под глубокое понимание музыки, включая вокальные композиции. Основные вклады авторов — создание масштабных датасетов MF-Skills и MF-Think с многоуровневыми описаниями и цепочками рассуждений, основанными на теории музыки, а также предложение поэтапного подхода к обучению, сочетающего дообучение на мультиязычных ASR-данных, тонкую настройку на музыкальных задачах и RL-стадию с GRPO.
Streaming Sortformer: Speaker Cache-Based Online Speaker Diarization with Arrival-Time Ordering
Работа о стриминговой диаризации: модель в реальном времени получает аудио и сразу выдаёт вероятности по спикерам, без классического каскада «сегментация → эмбеддинги → кластеризация». Ключевая идея — держать кэш эмбеддингов уже встреченных спикеров и подавать его вместе с текущим аудиофрагментом, постоянно обновляя (спикеры в кэше упорядочены по времени появления). Ограничение простое: число спикеров фиксировано архитектурно — модель нельзя безболезненно перенести на сильно большее количество, чем было на обучении. Зато на нескольких датасетах она обгоняет бейзлайны и прошлую офлайн-версию, оставаясь пригодной для реалтайм-сценариев.
Продолжение следует.
Статьи отобрали
Speech Info
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17👍5🔥5
Лучшие статьи 2025 года: выбор авторов Speech Info. Часть 2
Настраиваемся на конец рабочей недели и вспоминаем ещё несколько полезных статей прошедшего года. Выбрали и прокомментировали их авторы нашего канала.
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training
В работе представлена новая версия модели CosyVoice для zero-shot-синтеза речи. Ключевые улучшения:
1) новый речевой токенизатор — использует FSQ (25 ток./с) и обучается на основе LM MinMo с помощью многозадачного обучения (ASR, SER, AED, LID, SID);
2) дифференцируемая оптимизация награды (DiffRO) — новый подход для дообучения моделей синтеза речи на основе LLM, который позволяет напрямую оптимизировать речевые токены;
3) масштабирование данных (до 1 млн часов, 9 языков, 18 китайских диалектов) и модели (с 0,5B до 1,5B параметров).
CosyVoice 3 показывает существенное улучшение по сравнению с предыдущей версией, а также покрывает больше языков. Недавно авторы выложили в открытый доступ модель CosyVoice3-0.5B.
IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
IndexTTS2 — авторегрессионная zero-shot TTS-модель, которая решает две ключевые задачи: контроль длительности и разделение управления между идентичностью спикера и эмоцией. Длительность можно задавать явно, подавая в LM число токенов, которые нужно сгенерировать. А использование GRL при обучении для отделения эмоциональных признаков от идентичности спикера позволяет применять два промпта: один для стиля, второй — для тембра. Также предложен способ управления эмоцией по текстовому промпту: знания дистиллируют из DeepSeek-R1, чтобы по тексту предсказывать распределение по семи базовым эмоциям в меньшую LM-модель. На инференсе эмбеддинг эмоции вычисляется как взвешенная сумма фиксированных эмбеддингов, полученных из аудиопримеров для каждой базовой эмоции.
Adaptive Knowledge Distillation for Device-Directed Speech Detection
В Apple предлагают детектить обращение к устройству без триггерной фразы — по одной интонации, но с ограничениями (например, режим включается только вскоре после взаимодействия с девайсом), чтобы не ловить лишние срабатывания. Обучают небольшой on-device-энкодер сразу на три задачи: Hey Siri, Siri и интонационную активацию, а качество подтягивают через дистилляцию из замороженного ASR-энкодера на всех уровнях модели. Вывод простой: такая дистилляция заметно улучшает качество, а общий энкодер на несколько триггеров помогает всем задачам. По словам авторов, в телефонах это уже работает, а на колонках пока сложнее из-за данных и краевых случаев.
Статьи отобрали❣ Дмитрий Попов, Борис Шелудько
Speech Info
Настраиваемся на конец рабочей недели и вспоминаем ещё несколько полезных статей прошедшего года. Выбрали и прокомментировали их авторы нашего канала.
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training
В работе представлена новая версия модели CosyVoice для zero-shot-синтеза речи. Ключевые улучшения:
1) новый речевой токенизатор — использует FSQ (25 ток./с) и обучается на основе LM MinMo с помощью многозадачного обучения (ASR, SER, AED, LID, SID);
2) дифференцируемая оптимизация награды (DiffRO) — новый подход для дообучения моделей синтеза речи на основе LLM, который позволяет напрямую оптимизировать речевые токены;
3) масштабирование данных (до 1 млн часов, 9 языков, 18 китайских диалектов) и модели (с 0,5B до 1,5B параметров).
CosyVoice 3 показывает существенное улучшение по сравнению с предыдущей версией, а также покрывает больше языков. Недавно авторы выложили в открытый доступ модель CosyVoice3-0.5B.
IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
IndexTTS2 — авторегрессионная zero-shot TTS-модель, которая решает две ключевые задачи: контроль длительности и разделение управления между идентичностью спикера и эмоцией. Длительность можно задавать явно, подавая в LM число токенов, которые нужно сгенерировать. А использование GRL при обучении для отделения эмоциональных признаков от идентичности спикера позволяет применять два промпта: один для стиля, второй — для тембра. Также предложен способ управления эмоцией по текстовому промпту: знания дистиллируют из DeepSeek-R1, чтобы по тексту предсказывать распределение по семи базовым эмоциям в меньшую LM-модель. На инференсе эмбеддинг эмоции вычисляется как взвешенная сумма фиксированных эмбеддингов, полученных из аудиопримеров для каждой базовой эмоции.
Adaptive Knowledge Distillation for Device-Directed Speech Detection
В Apple предлагают детектить обращение к устройству без триггерной фразы — по одной интонации, но с ограничениями (например, режим включается только вскоре после взаимодействия с девайсом), чтобы не ловить лишние срабатывания. Обучают небольшой on-device-энкодер сразу на три задачи: Hey Siri, Siri и интонационную активацию, а качество подтягивают через дистилляцию из замороженного ASR-энкодера на всех уровнях модели. Вывод простой: такая дистилляция заметно улучшает качество, а общий энкодер на несколько триггеров помогает всем задачам. По словам авторов, в телефонах это уже работает, а на колонках пока сложнее из-за данных и краевых случаев.
Статьи отобрали
Speech Info
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍5🔥4
TTS-1 Technical Report. 1/2
Сегодня начинаем разбирать техрепорт TTS-1 от стартапа Inworld, представившего собственный движок синтеза и довольно подробный отчёт о нём.
С архитектурной точки зрения решение можно описать как «yet another SpeechLM», но с большим количеством инженерии. Есть аудиокодек, есть языковая модель, которая генерирует токены, и есть декодер, который восстанавливает аудио. Но, как обычно, дьявол скрыт в деталях — и ими авторы довольно открыто делятся.
Что под капотом
В качестве кодека используется X-Codec 2 с super-resolution-декодером до 48 кГц. Причины выбора простые: кодек опенсорсный, его удобно адаптировать под стриминг, он сильно экономит хранение и обработку данных. Например, один час моноаудио 48 кГц в сыром виде занимает около 365 МБ, тогда как токенизированное представление с кодбуком на 65 536 токенов — всего около 0,19 МБ при хранении в uint16. Для стартапа это большой плюс.
Кодек переобучали полностью на 110 тысячах часов собственных данных. Помимо модифицированного декодера архитектура осталась стандартной: энкодер на базе Wav2Vec-BERT с ResNet-блоками, декодер Vocos, квантизация FSQ, Multi-Period и Multi-STFT дискриминаторы. Из необычного — дополнительный RMS-лосс, который ввели для борьбы с неконсистентной громкостью на склейках и в high-pitch-сегментах, что особенно проявлялось в стриминговом режиме.
Апсемплинг до 48 кГц
Повышение разрешения аудио из 16 кГц в 48 кГц сделано через двухэтапный uptraining: сначала на данных с native sample rate ≥32 кГц, затем дополнительный fine-tuning на аудио ≥44.1 кГц. За счёт подбора страйдов и hop-length в декодере такой апсемплинг почти не влияет на скорость и сложность обучения и, по словам авторов, даже даёт выигрыш по DNS-MOS.
SpeechLM
Поверх кодека — SpeechLM. В TTS-1 используется LLaMA-3.2 на 1,6B параметров, а в версии TTS-1 Max — LLaMA-3.1 на 8,8B. Общий словарь объединяет текстовые токены, 65 тысяч аудиотокенов и специальные токены, включая теги эмоций и невербальных вокализаций.
На этапе претрена к аудиоданным подмешивается около 20 миллиардов текстовых токенов из RedPajama-v2 и instruction-данных LAION OIG, чтобы сохранить текстовое понимание. Обучались модели с bfloat16, flash attention 2 и fused AdamW. Для распределенного обучения младшая версия использовала DDP, а старшая FSDP и torch.compile. Один полный прогон претрена занял около двух дней для маленькой модели и около 10 дней для большой.
Во второй части поста расскажем про SFT, RL и инженерию деплоя в TTS-1.
Владимир Гогорян❣ Специально для Speech Info
Сегодня начинаем разбирать техрепорт TTS-1 от стартапа Inworld, представившего собственный движок синтеза и довольно подробный отчёт о нём.
С архитектурной точки зрения решение можно описать как «yet another SpeechLM», но с большим количеством инженерии. Есть аудиокодек, есть языковая модель, которая генерирует токены, и есть декодер, который восстанавливает аудио. Но, как обычно, дьявол скрыт в деталях — и ими авторы довольно открыто делятся.
Что под капотом
В качестве кодека используется X-Codec 2 с super-resolution-декодером до 48 кГц. Причины выбора простые: кодек опенсорсный, его удобно адаптировать под стриминг, он сильно экономит хранение и обработку данных. Например, один час моноаудио 48 кГц в сыром виде занимает около 365 МБ, тогда как токенизированное представление с кодбуком на 65 536 токенов — всего около 0,19 МБ при хранении в uint16. Для стартапа это большой плюс.
Кодек переобучали полностью на 110 тысячах часов собственных данных. Помимо модифицированного декодера архитектура осталась стандартной: энкодер на базе Wav2Vec-BERT с ResNet-блоками, декодер Vocos, квантизация FSQ, Multi-Period и Multi-STFT дискриминаторы. Из необычного — дополнительный RMS-лосс, который ввели для борьбы с неконсистентной громкостью на склейках и в high-pitch-сегментах, что особенно проявлялось в стриминговом режиме.
Апсемплинг до 48 кГц
Повышение разрешения аудио из 16 кГц в 48 кГц сделано через двухэтапный uptraining: сначала на данных с native sample rate ≥32 кГц, затем дополнительный fine-tuning на аудио ≥44.1 кГц. За счёт подбора страйдов и hop-length в декодере такой апсемплинг почти не влияет на скорость и сложность обучения и, по словам авторов, даже даёт выигрыш по DNS-MOS.
SpeechLM
Поверх кодека — SpeechLM. В TTS-1 используется LLaMA-3.2 на 1,6B параметров, а в версии TTS-1 Max — LLaMA-3.1 на 8,8B. Общий словарь объединяет текстовые токены, 65 тысяч аудиотокенов и специальные токены, включая теги эмоций и невербальных вокализаций.
На этапе претрена к аудиоданным подмешивается около 20 миллиардов текстовых токенов из RedPajama-v2 и instruction-данных LAION OIG, чтобы сохранить текстовое понимание. Обучались модели с bfloat16, flash attention 2 и fused AdamW. Для распределенного обучения младшая версия использовала DDP, а старшая FSDP и torch.compile. Один полный прогон претрена занял около двух дней для маленькой модели и около 10 дней для большой.
Во второй части поста расскажем про SFT, RL и инженерию деплоя в TTS-1.
Владимир Гогорян
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥7❤4
TTS-1 Technical Report. 2/2
Продолжаем рассказ о техрепотре свежего TTS-движка американского стартапа Inworld.
SFT: что сработало, а что нет
После pretrain-стадии авторы переходят к SFT и алайнменту. На SFT используют около 200 тысяч часов транскрибированных данных. Для фильтрации отбрасывают 20% худших сэмплов по DNS-MOS, 5% самых быстрых и 5% самых медленных по символам в секунду, плюс применяются текстовые эвристики для удаления плохих транскрипций.
Авторы утверждают, что для качества синтеза было важно инициализировать learning rate для SFT финальным значением после стадии pretrain. Попытка подмешать text-based instruction-following данные, чтобы лучше понимать сложные промпты, привела к ухудшению стабильности синтеза, несмотря на отсутствие деградации лосса на аудиоданных. Ещё в работе есть аблейшн, который показал, что стартовать SFT с speech-pretrained LM заметно лучше, чем с LLaMA-3.2-1B-Instruct — и лоссу, и по метрикам WER и SIM.
RL-алайнмент и разметка стилей
Для алайнмента используют RL с GRPO, так как даже после SFT остаются клики, артефакты и ошибки произношения. GRPO позволяет оценивать несколько ответов на один и тот же запрос относительно среднего по группе, что даёт более стабильное обучение. Используется композитный реворд, включающий WER, similarity и DNS-MOS, а также отдельные награды для аудиотегов. WER считают с помощью Whisper-large-v3, similarity — через WavLM-Large. Утверждают, что единая модель с композитным ревордом работает лучше, чем модели, обученные под каждую метрику отдельно. В качестве аргумента приводят только графики GRPO.
Отдельный блок отведён стилям и невербальным эффектам. Попытка просто конкатенировать style-tag и текст не сработала — авторы объясняют это тем, что кодек смешивает семантическое и акустическое пространства, и стиль сложно изолировать от голосовых характеристик. Решением стал парный датасет: нейтральные и стилизованные высказывания одного и того же спикера, склеенные паузой 0,5–1,5 секунды, с использованием тега как разделителя. На один нейтральный сэмпл приходится от одного до пяти стилизованных, около 20% данных содержат невербальные вокализации, а примерно 30% — непарные нейтральные примеры для сохранения базового синтеза.
В оценке качества приходят к тому, что увеличение размера модели улучшает similarity и стабилизирует WER, а RL-алайнмент даёт прирост на коротких, средних и длинных сэмплах. Что интересно, на внутренней TTS-арене побеждают всех конкурентов, например, TTS-1-Max имеет win-rate 59,1% против 11Labs.
Инференс
Модели имеют два режима: мгновенный voice cloning по референсу и транскрипту и профессиональный voice cloning с LoRA-дообучением SpeechLM. Для стриминга сделана аккуратная склейка сегментов по участкам тишины, чтобы избежать щелчков, а также стабилизация громкости за счёт дополнительного контекста в аудиодекодере. Inworld вместе с Inference платформой Modular ускорил API за счёт асинхронного планировщика, батчинга в декодере, sparse-формата для penalty sampling и кастомных GPU-ядер на Mojo в составе MAX pipeline. Это даёт первые две секунды синтезированного аудио в среднем на 70% быстрее, чем через vLLM.
Какие есть проблемы
В конце авторы честно говорят и об ограничениях. Кэширование референса помогает снизить задержки, но может подтягивать стиль и эмоции из референсного аудио. Длинные последовательности хуже генерируются при коротких промптах, а параметры декодинга постоянно приходится балансировать между сходством с голосом и выразительностью. В целом, получилась довольно инженерная работа о том, как стартап оптимизирует качество, задержки и стоимость — без архитектурных откровений, но с массой практических деталей.
Владимир Гогорян❣ Специально для Speech Info
Продолжаем рассказ о техрепотре свежего TTS-движка американского стартапа Inworld.
SFT: что сработало, а что нет
После pretrain-стадии авторы переходят к SFT и алайнменту. На SFT используют около 200 тысяч часов транскрибированных данных. Для фильтрации отбрасывают 20% худших сэмплов по DNS-MOS, 5% самых быстрых и 5% самых медленных по символам в секунду, плюс применяются текстовые эвристики для удаления плохих транскрипций.
Авторы утверждают, что для качества синтеза было важно инициализировать learning rate для SFT финальным значением после стадии pretrain. Попытка подмешать text-based instruction-following данные, чтобы лучше понимать сложные промпты, привела к ухудшению стабильности синтеза, несмотря на отсутствие деградации лосса на аудиоданных. Ещё в работе есть аблейшн, который показал, что стартовать SFT с speech-pretrained LM заметно лучше, чем с LLaMA-3.2-1B-Instruct — и лоссу, и по метрикам WER и SIM.
RL-алайнмент и разметка стилей
Для алайнмента используют RL с GRPO, так как даже после SFT остаются клики, артефакты и ошибки произношения. GRPO позволяет оценивать несколько ответов на один и тот же запрос относительно среднего по группе, что даёт более стабильное обучение. Используется композитный реворд, включающий WER, similarity и DNS-MOS, а также отдельные награды для аудиотегов. WER считают с помощью Whisper-large-v3, similarity — через WavLM-Large. Утверждают, что единая модель с композитным ревордом работает лучше, чем модели, обученные под каждую метрику отдельно. В качестве аргумента приводят только графики GRPO.
Отдельный блок отведён стилям и невербальным эффектам. Попытка просто конкатенировать style-tag и текст не сработала — авторы объясняют это тем, что кодек смешивает семантическое и акустическое пространства, и стиль сложно изолировать от голосовых характеристик. Решением стал парный датасет: нейтральные и стилизованные высказывания одного и того же спикера, склеенные паузой 0,5–1,5 секунды, с использованием тега как разделителя. На один нейтральный сэмпл приходится от одного до пяти стилизованных, около 20% данных содержат невербальные вокализации, а примерно 30% — непарные нейтральные примеры для сохранения базового синтеза.
В оценке качества приходят к тому, что увеличение размера модели улучшает similarity и стабилизирует WER, а RL-алайнмент даёт прирост на коротких, средних и длинных сэмплах. Что интересно, на внутренней TTS-арене побеждают всех конкурентов, например, TTS-1-Max имеет win-rate 59,1% против 11Labs.
Инференс
Модели имеют два режима: мгновенный voice cloning по референсу и транскрипту и профессиональный voice cloning с LoRA-дообучением SpeechLM. Для стриминга сделана аккуратная склейка сегментов по участкам тишины, чтобы избежать щелчков, а также стабилизация громкости за счёт дополнительного контекста в аудиодекодере. Inworld вместе с Inference платформой Modular ускорил API за счёт асинхронного планировщика, батчинга в декодере, sparse-формата для penalty sampling и кастомных GPU-ядер на Mojo в составе MAX pipeline. Это даёт первые две секунды синтезированного аудио в среднем на 70% быстрее, чем через vLLM.
Какие есть проблемы
В конце авторы честно говорят и об ограничениях. Кэширование референса помогает снизить задержки, но может подтягивать стиль и эмоции из референсного аудио. Длинные последовательности хуже генерируются при коротких промптах, а параметры декодинга постоянно приходится балансировать между сходством с голосом и выразительностью. В целом, получилась довольно инженерная работа о том, как стартап оптимизирует качество, задержки и стоимость — без архитектурных откровений, но с массой практических деталей.
Владимир Гогорян
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍5🔥4🤓1
FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot
Сегодня разберём статью, авторы которой пытаются решить задачу multi-speaker-генерации длинных диалогов, например для подкастов и чат-ботов.
Во-первых, в работе предлагают новый стриминговый speech tokenizer с частотой 12,5 Hz (12,5 токена/сек), чтобы тянуть длинные последовательности. Обычно используют токенизаторы с частотой около 25 Hz, а здесь её снижают — как раз чтобы упростить работу с длинными диалогами.
Во-вторых, для моделирования multi-layer speech-токенов используют подход dual-transformer: большой decoder-only-трансформер предсказывает токены первого уровня, а маленький трансформер быстро достраивает остальные.
Архитектура
В speech tokenizer объединяют два источника информации: акустику и семантику из Whisper (его энкодер заморожен). Их приводят к одному пространству и кодируют в RVQ-токены, чтобы в каждом была и семантическая, и акустическая информация.
Поверх этого работает TTS-модель: на вход подаются speaker + text + speech tokens. Трансформер сначала предсказывает токен первого уровня, а затем маленький декодер достраивает остальные уровни. После этого полный набор RVQ-токенов превращается обратно в финальный speech.
Как обучают speech tokenizer
Обучение проходит в две стадии. На претрейне используют reconstruction loss и дополнительные лоссы для RVQ и семантики, а также perceptual loss через WavLM для сравнения фичей реконструкции и оригинала.
На этапе посттрейна семантический декодер убирают, акустический заменяют на стриминговую версию (24 kHz), и дообучают уже с reconstruction + GAN loss на более чистых данных.
По WER токенизатор показывает лучший результат среди моделей с таким низким frame rate, хотя по MOS уступает некоторым решениям вроде XCodec2.
Сценарии использования
1) Voice cloning
Модель может воспроизводить голос по промпту. Разборчивость речи получается хорошей, но вот похожесть на оригинальный голос — хуже, чем у лидеров. Авторы говорят, что voice cloning — не главный фокус работы.
2) Диалоговый чат с эмоциями
Для этого сценария собрали 15 часов эмоциональной речи, записанных одной женщиной (6 эмоций), и дообучили модель так, чтобы она могла отвечать с нужной интонацией. Эмоции затем проверяли вручную — точность получилась высокой. Правда, остаётся вопрос, насколько хорошо такая модель умеет говорить нейтрально.
3) Генерация подкастов
Авторы сделали набор английских и китайских подкастовых разговоров, которые показывают, что модель может генерировать диалоги длиной до трёх минут и поддерживать несколько говорящих. Сравнивают по MOS и другим метрикам, и отдельно делают side-by-side с реальными записями. Говорят, что примерно в 28% случаев их результат можно перепутать с настоящими диалогами.
Максим Борисов❣ Специально для Speech Info
Сегодня разберём статью, авторы которой пытаются решить задачу multi-speaker-генерации длинных диалогов, например для подкастов и чат-ботов.
Во-первых, в работе предлагают новый стриминговый speech tokenizer с частотой 12,5 Hz (12,5 токена/сек), чтобы тянуть длинные последовательности. Обычно используют токенизаторы с частотой около 25 Hz, а здесь её снижают — как раз чтобы упростить работу с длинными диалогами.
Во-вторых, для моделирования multi-layer speech-токенов используют подход dual-transformer: большой decoder-only-трансформер предсказывает токены первого уровня, а маленький трансформер быстро достраивает остальные.
Архитектура
В speech tokenizer объединяют два источника информации: акустику и семантику из Whisper (его энкодер заморожен). Их приводят к одному пространству и кодируют в RVQ-токены, чтобы в каждом была и семантическая, и акустическая информация.
Поверх этого работает TTS-модель: на вход подаются speaker + text + speech tokens. Трансформер сначала предсказывает токен первого уровня, а затем маленький декодер достраивает остальные уровни. После этого полный набор RVQ-токенов превращается обратно в финальный speech.
Как обучают speech tokenizer
Обучение проходит в две стадии. На претрейне используют reconstruction loss и дополнительные лоссы для RVQ и семантики, а также perceptual loss через WavLM для сравнения фичей реконструкции и оригинала.
На этапе посттрейна семантический декодер убирают, акустический заменяют на стриминговую версию (24 kHz), и дообучают уже с reconstruction + GAN loss на более чистых данных.
По WER токенизатор показывает лучший результат среди моделей с таким низким frame rate, хотя по MOS уступает некоторым решениям вроде XCodec2.
Сценарии использования
1) Voice cloning
Модель может воспроизводить голос по промпту. Разборчивость речи получается хорошей, но вот похожесть на оригинальный голос — хуже, чем у лидеров. Авторы говорят, что voice cloning — не главный фокус работы.
2) Диалоговый чат с эмоциями
Для этого сценария собрали 15 часов эмоциональной речи, записанных одной женщиной (6 эмоций), и дообучили модель так, чтобы она могла отвечать с нужной интонацией. Эмоции затем проверяли вручную — точность получилась высокой. Правда, остаётся вопрос, насколько хорошо такая модель умеет говорить нейтрально.
3) Генерация подкастов
Авторы сделали набор английских и китайских подкастовых разговоров, которые показывают, что модель может генерировать диалоги длиной до трёх минут и поддерживать несколько говорящих. Сравнивают по MOS и другим метрикам, и отдельно делают side-by-side с реальными записями. Говорят, что примерно в 28% случаев их результат можно перепутать с настоящими диалогами.
Максим Борисов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍5🔥4🥰2🥱1
Динамический выбор контекста в аудиомоделях
Сегодня вспомним о паре любопытных статей с Interspeech 2025, связанных с динамическим выбором промпта из некоторой базы.
Audiobox TTA-RAG: Improving Zero-Shot and Few-Shot Text-To-Audio with Retrieval-Augmented Generation
Авторы улучшают качество text-to-audio-генерации для случаев, слабо представленных в обучающем датасете, добавляя conditioning на сэмплы из большой базы неразмеченных аудио. Для выбора примеров из базы используют косинусное расстояние между CLAP-эмбеддингами: на этапе обучения сравнение проводится с эмбеддингом целевого аудио, на инференсе — с эмбеддингом входного текста.
LiSTEN: Learning Soft Token Embeddings for Neural Audio LLMs
В работе предлагают метод адаптации предобученной текстовой LLM под решение различных задач с text-audio-входом (текстовая инструкция + входная аудиозапись) и текстовым выходом в мультитаск-формате. Кроме стандартного подхода — кодирования входного аудио предобученным энкодером и обучения адаптера во входной формат текстовой LLM — авторы обучают пул промптов: случайно проинициализированных key-value-пар.
Эмбеддинги входных данных каждого сэмпла — текста и аудио — усредняют для получения query. После чего выбирают топ-k промптов по расстоянию между query и key и добавляют ко входу LLM соответствующие value.
По словам авторов, в отличие от обучения отдельного промпта под каждую задачу, предложенный подход позволяет переносить знания между различными сценариями. В результате модель лучше генерализуется под новые задачи и требует меньшего количества обучающих данных для каждой конкретной. А в отличие от полностью разделяемых параметров, такой подход препятствует переобучению под какие-то из задач или забыванию базовых знаний предобученной модели.
Дарья Петренко❣ Специально для Speech Info
Сегодня вспомним о паре любопытных статей с Interspeech 2025, связанных с динамическим выбором промпта из некоторой базы.
Audiobox TTA-RAG: Improving Zero-Shot and Few-Shot Text-To-Audio with Retrieval-Augmented Generation
Авторы улучшают качество text-to-audio-генерации для случаев, слабо представленных в обучающем датасете, добавляя conditioning на сэмплы из большой базы неразмеченных аудио. Для выбора примеров из базы используют косинусное расстояние между CLAP-эмбеддингами: на этапе обучения сравнение проводится с эмбеддингом целевого аудио, на инференсе — с эмбеддингом входного текста.
LiSTEN: Learning Soft Token Embeddings for Neural Audio LLMs
В работе предлагают метод адаптации предобученной текстовой LLM под решение различных задач с text-audio-входом (текстовая инструкция + входная аудиозапись) и текстовым выходом в мультитаск-формате. Кроме стандартного подхода — кодирования входного аудио предобученным энкодером и обучения адаптера во входной формат текстовой LLM — авторы обучают пул промптов: случайно проинициализированных key-value-пар.
Эмбеддинги входных данных каждого сэмпла — текста и аудио — усредняют для получения query. После чего выбирают топ-k промптов по расстоянию между query и key и добавляют ко входу LLM соответствующие value.
По словам авторов, в отличие от обучения отдельного промпта под каждую задачу, предложенный подход позволяет переносить знания между различными сценариями. В результате модель лучше генерализуется под новые задачи и требует меньшего количества обучающих данных для каждой конкретной. А в отличие от полностью разделяемых параметров, такой подход препятствует переобучению под какие-то из задач или забыванию базовых знаний предобученной модели.
Дарья Петренко
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤4🔥4❤🔥2