Speech Info

В этом году Яндекс привёз на Interspeech статью Multichannel Keyword Spotting for Noisy Conditions о нейросетевой архитектуре KWS.

Решение объединяет мультиканальный вход и attention-механизм для более точного распознавания голосовых команд в шумных помещениях.

Подробнее о работе рассказывали здесь, а теперь делимся маленьким фоторепортажем с постера!

Speech Info

❤18🔥10👏7👍2

908 views12:06

Speech Info

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня завершается Interspeech 2025

Под занавес конференции делимся несколькими атмосферными фото и видео:

— Фрагмент Show&Tell-сессии с физической моделью голосового тракта. Редкий случай, когда на конференции показывают не абстрактные алгоритмы, а реальную говорящую машину.

— Команда Яндекса — как обычно, в эпицентре идей и технологий.

— Анонс Interspeech 2026: в следующем году встречаемся в Сиднее!

Speech Info

👍9🔥5😁3🙏1

1.02K views13:50

Speech Info

Streaming Sortformer: Speaker Cache-Based Online Speaker Diarization with Arrival-Time Ordering

Сегодня разбираем статью с Interspeech 2025 от NVIDIA, посвящённую стриминговой end-to-end-диаризации спикеров с использованием Arrival-Time Ordering Cache. Основное применение — интеграция в multi-talker ASR. На конференции статью представлял основной автор, исследователь NVIDIA, Иван Меденников.

В работе представляют улучшение предыдущей модели Sortformer, в которой были предложены архитектура с Sort Loss и метод выравнивания сегментов диаризации с токенами ASR. Ключевой новинкой стал Arrival-Order Speaker Cache (AOSC) — кэш эмбеддингов спикеров, упорядоченных по времени появления. Модель работает в скользящем окне: в кэш добавляются фреймы с наивысшими оценками уверенности для каждого спикера, с динамическим распределением (минимум K фреймов на спикера и silence embeddings для переходов).

Интересные аспекты:

— Sort Loss (сортирует спикеров по времени появления, в отличие от attractor-based EEND) не заменяет полностью PIL, но их комбинация работает лучше, так как Sort Loss выполяет функцию регуляризации.
— Стриминговая версия превосходит офлайн-версию на длинных записях, устраняя train-inference mismatch (обучение на 90-секундных сегментах vs произвольная длина теста).
— Инициализация от предобученного офлайн Sortformer полезна, но fine-tuning с AOSC обязателен, так как фреймы в кэше могут быть непоследовательными.
— Обучение проводилось на 5150 часах симулированных смесей и 2030 часах реальных данных. С синтетикой нужно быть осторожными: модель склонна к оверфиту на background noise.

Эксперименты показывают SOTA для E2E-онлайн-диаризации с достаточно низкой latency.

Ограничения модели следующие: фиксированное максимальное число спикеров (4 в работе), масштабирование требует данных с большим числом дикторов и растёт вычислительная сложность PIL (O(N!) для перестановок).

Дмитрий Попов ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍7🔥6👀1

1.01K views08:05

Speech Info

Audio Flamingo 3

Сегодня разбираем статью о модели Audio Flamingo 3, в которой авторы предлагают новый энкодер AF-Whisper. Одно из его ключевых отличий — умение обрабатывать все три типа аудио: речь, звуки и музыку. По словам авторов, большинство аудио-LLM используют три отдельных энкодера для этих задач.

Основной вклад работы, который отмечают в статье: новый аудиоэнкодер, использование chain-of-thought, поддержка multi-turn-диалогов, понимание длинных записей и voice-to-voice-диалоги. Кроме этого, модель полностью в открытом доступе, включая код обучения и использованные датасеты.

Что касается бенчмарков, авторы сравнились как с опенсорсными, так и с проприетарными решениями — модель везде показала лучшие результаты. Наиболее близкой они считают GPT-4 Audio, но при этом отмечают её закрытость.

Архитектура

AF-Whisper построен на базе Whisper, который дообучили вместе с LLM. Есть недостаток — модель не стриминговая: работает с 30-секундными фрагментами звука, обрабатывая соседние куски без маскировки, а затем собирает аудио произвольной длины. Whisper разморозили, добавили адаптер с кросс-аттеншеном (как в Audio Flamingo 2) и сгенерировали синтетические описания готовых аудио с помощью GPT-4.1.

Этапы обучения

Сначала обучают только адаптер, чтобы не повредить энкодер и LLM. Затем идёт совместное обучение энкодера и адаптера, после чего следуют дополнительные стадии: 1) SFT — разморожена вся сеть; 2) расширение контекста и reasoning — разморожена только LLM; 3) для добавления диалогов снова разморожена вся сеть.

Данные

Основная часть статьи посвящена описанию данных. Первая и вторая стадии используют пост-опенсорсные датасеты, конвертированные в единый формат: например, в задачах ASR модель явно просили выполнить транскрибацию. Далее идёт стадия Audio Skills XL с добавлением пар «вопрос-ответ».

Авторы отмечают, что одного ASR и классификации аудио по открытым датасетам недостаточно для появления reasoning, поэтому они генерируют дополнительные данные:

— берут 30-секундные аудиофрагменты;
— создают датасет из 4,5 млн новых вопросов-ответов, в основном multi-choice;
— источники — YouTube8M, Music4All, Million Song Dataset;
— на основе метаданных и аудио GPT-4.1 генерирует промпты и ответы.

Для описания звуковых событий применяют аналогичный подход, используя также Audio Flamingo 2, который умеет давать базовые описания.

Reasoning

Отдельный датасет сделали для длинных аудио с задачами на рассуждение. Разметку reasoning добавляли в небольшое число сэмплов и прямо на уровне промпта просили модель объяснить ход рассуждений. Ответы — до 40 слов. Префиксы для reasoning генерировали в Gemini, так как он давал меньше галлюцинаций.

Примеры решаемых задач: определение сарказма и эмоционального состояния, извлечение информации из длинного аудио, определение порядка событий, суммаризация,
отслеживание смены темы разговора.

Multi-turn-диалоги

Последним этапом авторы добавили данные для естественных многошаговых диалогов — 75 тысяч примеров, сгенерированных GPT.

Инфраструктура

Обучение проводили на кластере из 128 A100. Авторы отмечают, что ключ к качественной модели — чистый датасет. В экспериментах вариант с reasoning давал заметный прирост качества.

Всеволод Ковшов ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤7👍5

1.01K views08:02

Speech Info

Интересные статьи на Speech Synthesis Workshop 1/2

Speech Synthesis Workshop — это воркшоп, который проходит при конференции Interspeech. В этом году разработчик службы синтеза речи Дарья Дятлова побывала на мероприятии и поделилась интересными статьями.

Analyzing and Improving Speaker Similarity Assessment for Speech Synthesis

Авторы сравнивают схожесть оригинального голоса спикера и синтезированного моделью с помощью автоматической метрики. Выдеяют четыре тезиса-предпосылки.

1. Обычно для такого сравнения используют косинусную близость двух векторов, полученных из эмбедов модели для верификации спикеров (SV). Лучшая SV-модель — не всегда лучший экстрактор фичей для метрики схожести спикеров.

2. Характеристики голоса спикера можно разделить на две группы. Первые — спектральные — статичны и не меняются от записи. По ним легко отделить одного спикера от другого. Вторые — темп, длительность, громкость речи — динамичны и могут меняться от записи к записи. Эмбеддинги большинства моделей для SV не содержат информации о динамических характеристиках аудио.

3. Эмбединги моделей SV содержат информацию о чистоте сигнала и длительности аудио — это не прямая характеристика голоса спикера, а определенный баес датасета или TTS-модели. При конструировании метрики на основе этих эмбедингов стоит иметь это ввиду и применять определённые фильтры, которые помогают сгладить эффект.

4. Грубым способом оценки ритма может быть оценка темпа речи спикера. Однако такой способ — сравнение средних величин количества слогов на секунду аудио — признак с плохой разделительной способностью.

Что предложили

В статье предложили метрику U3D (Unit Duration Distribution Distance), которая оценивает одну из динамических характеристик речи спикера — её ритм. Метрика основана на сравнении распределений длительности групп фонем. Это не фонемы в буквальном смысле (они извлекаются в unsupervised-сетапе путём кластеризации эмбеддингов HuBERT), но дальше для простоты буду называть их фонемами.

Каждому элементу в последовательности из спич-юнитов присваивается индекс ближайшей к нему фонемы, после чего последовательность разделяется на сегменты идущих друг за другом фонем. Для каждой фонемы считается длительность в количестве спич-юнитов для каждой записи спикера. Затем тестовая и контрольная выборки распределений сравниваются через метрику Вассерштейна. В результате авторы показали, что метрика обладает высокой разделительной способностью и робастна к сравнению схожих спикеров.

Почему это круто

Большая часть статьи посвящена не самой метрике, а подводке к тому, зачем вообще она нужна и почему не всегда достаточно просто считать косинусную близость между эмбедами какой-то модели верификации спикеров и называть это speaker-similarity.
Пайплайн unsupervised-разметки легко адаптируется и хорошо ложится не только на задачу ритма и не только для подсчёта метрики.

Продолжение следует.

Дарья Дятлова ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤6🔥4

1.21K viewsedited 09:00

Speech Info

Интересные статьи на Speech Synthesis Workshop 2/2

Разберём ещё две любопытные работы с Speech Synthesis Workshop. Одна посвящена управлению стилем на уровне слов, другая — синтезу речи с невербальными характеристиками.

Lina-Style: Word-Level Style Control in TTS via Interleaved Synthetic Data

Авторы предложили, как из небольшой выборки с разметкой стиля и большого неразмеченного корпуса построить полностью синтетический датасет с локальными (на уровне слова) метками стиля и его интенсивностью, а затем дообучить модель, чтобы она кондишенилась на метки. Для этого они использовали свою предыдущую работу, модель Lina-Speech. Архитектурно это текстовый энкодер и аудиодекодер с Gated Linear Attention (GLA). GLA, кстати, позволяет легко использовать prefix free prompting через initial state-tuning. Этим и воспользовались авторы.

Сначала они взяли претрейн Lina-Speech на неэмоциональной речи. Дотюнили его через initial state-tuning на несколько стилей (neutral, happy, confused, enunciated). Затем синтезировали несколько вариантов одной и той же реплики в разных стилях. Во время синтеза также использовали classifier‑free guidance (CFG), случайно сэмплировали альфа, поэтому насинтезированные аудио получились в разных стилях и с разной их интенсивностью.

Для каждого аудио построили соответствие текста аудиотокенам. Для этого извлекли матрицы soft-алайнмента текста и аудио и превратили их в матрицы hard-алайнмента с помощью Monotonic Alignment Search (MAS). Таким образом получили соответствие токенов аудио отдельным словам. Склеили слова из разных стилей в одно предложение и получили синтетический интерливинг-датасет с word-level-разметкой на стиль.

Осталось затюнить итоговую модель. На этом этапе дообучили базовый претрейн, добавив новые параметры: эмбеддинги стилей, интенсивностей и linear для их комбинации.

Почему это круто

Потому что это — пример сбора синтетического датасета с локальными метками стиля с нуля. В изначальном датасете сэмплов с word-level-разметкой не было. Ну и успешное обучение на синте подтвердило, что метод рабочий. Позалипать на сэмплы можно тут.

NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations for Text-to-Speech

Янднекс тоже привёз свою статью, написанную совместно с коллегами из VK Lab. В ней предложили датасет для синтеза речи с невербальными характеристиками на английском языке и рассказали о пайплайне его сбора. Невербальные характеристики — это смех, вздох, кашель и другие звуки, которые мы издаём в речи и которые не являются словами.

В реальной жизни таких невербальных характеристик много, но разметки для них часто нет. Авторы взяли два опенсорсных датасета — Expresso и VoxCeleb — и сначала с помощью опенсорсных моделей получили грубую разметку по невербальным характеристикам и эмоциям. Затем уточнили результаты с помощью ручной разметки и отфильтровалы шумные сэмплы (например, аудио со смехом, который оказался закадровым). После этого зафьюзили варианты правильных транскрипций от нескольких разметчиков и получили итоговый датасет: 13 часов аудио с 10 типами невербальных характеристик.

Затюнили на своём датасете CosyVocie и сравнились с CosyVoice2, который обучался на проприетарном датасете, нестатзначимо проиграли в SbS. В статье раскрыли детали пайплайна разметки, а датасет выложили на Hugging Face. Там немного, но это честная работа.

Почему это круто

Синтез с невербальными характеристиками нужен для синтеза спонтанного и разговорного стилей речи. NVTTS может быть использован для файнтьюна, а также как стартовая точка для скейла и unsupervised-разметки датасета большего размера.

Дарья Дятлова ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5🔥3

935 views09:04

Speech Info

Interspeech 2025: впечатления инженеров Яндекса

Мы по традиции попросили инженеров Яндекса подвести личные итоги конференции — на этот раз Interspeech 2025 — и рассказать, чем она запомнилась. В карточках собрали заметки, впечатления и самые интересные работы.

Статьи, которые упоминаются в посте:
— Low-Bitrate and Speaker-Decoupled Discrete Speech Codec;
— Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback;
— В статье Improving Noise Robustness of LLM-based Zero-shot TTS via Discrete Acoustic Token Denoising;
— Adaptive Knowledge Distillation for Device-Directed Speech Detection.

Speech Info

* Компания Meta признана экстремистской; её деятельность в России запрещена.

❤10👍6🔥6

942 views16:50

Speech Info

SMARTMOS: Modeling Subjective Audio Quality Evaluation for Real-Time Applications

Сегодня разбираем статью от Meta* о решении SMARTMOS, применяемом в звонках (WhatsApp и др.) для оценки качества звука после шумоподавления и других алгоритмов обработки. В продакшене важно не только понимать общий показатель качества, но и иметь возможность разложить его на составляющие: насколько хорошо слышна речь, насколько повлияли потери пакетов, сколько шума осталось и какую аудиозапись в итоге получает собеседник на свой девайс. Именно такую детализированную оценку даёт SMARTMOS.

Для этой задачи использована небольшая стриминговая нейросеть. Она работает прямо на устройстве и предсказывает скоры для двух задач по 10-секундному сегменту аудио: Noise Suppression (NS) и Packet Loss Concealment (PLC). Внутри Noise Suppression есть разделение по аспектам: Speech MOS, Noise MOS и Overall MOS. Интересно, что архитектура энкодера совпадает с используемой в оффлайн-ASR в умных очках Meta.

Обучение делается на сегментах длиной около 10 секунд. Логика в том, что на длинных кусках качество можно оценить надёжнее, поскольку короткие отрезки в середине разговора могут давать искажённые результаты.

Данные для обучения собираются из тестов реальных приложений — в релизном процессе есть тестировщики, которые записывают аудио по сценариям, эти записи логируются и размечаются людьми. Чтобы компенсировать нехватку данных, авторы использовали не только человеческую разметку (MOS-оценки), но и часть выборки с semi-supervised-метками.

Чтобы модель была достаточно лёгкой для запуска на любых устройствах, применяются оптимизации:

— используется VAD, тишина дропается, чтобы не тратить ресурсы;
— сегменты фиксированы по 10 секунд;
— энкодер принимает куски по 100 мс, обрабатывая их в стримминговом режиме;
— декодер (предиктор) аккумулирует все выходы энкодера и выдаёт одну оценку на весь сегмент.

Такой подход позволяет существенно снизить нагрузку на CPU: пиковая нагрузка распределяется более равномерно по времени.

Meta уже использует это решение в продакшене на всех типах звонков. Подобные решения будут полезны всем, кто делает продукты для звонков. В реальности у нас почти никогда нет простого способа измерить, насколько хорошо работает шумоподавление. Модель вроде SMARTMOS могла бы закрыть этот пробел и дать мониторинг качества прямо в проде.

Борис Шелудько ❣ Специально для Speech Info

* Компания Meta, владеющая WhatsApp, признана экстремистской; её деятельность в России запрещена.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍8🔥4

1.12K views12:01

Speech Info

Работы об аудиокодеках и новых подходах к сжатию речи

Большинство статей на конференции Interspeech традиционно представлены академией. В силу ограниченности ресурсов в них нет результатов обучения на действительно больших датасетах или надёжных асессорских замеров. Поэтому их можно рассматривать скорее в качестве источника идей, чем как решения для продакшна. Сегодня разберём несколько таких работ.

LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec

Авторы исходят из того, что кодирование в последовательности токенов глобальной, не зависящей от времени информации приводит к её дублированию для каждого таймстемпа и лишней трате capacity. Оптимальнее кодировать только то, что меняется со временем, а остальное передавать отдельно — в виде фиксированного вектора.

В качестве глобальной информации в работе используют тембр голоса спикера. Обучающий сэмпл включает два аудио: таргет и промпт от того же спикера. Перед подачей в энкодер тембр таргета искусственно искажается, а декодеру дополнительно передаются SSL-фичи промпта через position-agnostic cross-attention. Модель учится предсказывать мел-спектрограмму и SSL-семантические токены исходного таргета (до искажения).

В результате выход энкодера не содержит информации о тембре таргета, и декодер учится извлекать её из промпта (а благодаря боттлнеку эта информация не зашивается в токены энкодера). При этом position-agnostic attention предотвращает утечку из промпта остальной, зависящей от времени, информации.

Статья интересна идейно, но использование в качестве глобальной информации только тембра кажется слишком ограничивающим. В списке ссылок приведена работа с ICASSP 2024 с аналогичной мотивацией, но более общим подходом.

Fewer-token Neural Speech Codec with Time-invariant Codes

Архитектура учится end-to-end и состоит из нескольких частей: энкодер и квантайзер для токенов переменной длины; энкодер (с average pooling на последнем слое), квантайзер для фиксированного глобального вектора и совместный декодер.

Чтобы закодировать в глобальном векторе именно не зависящую от времени информацию, добавляется дополнительная компонента лосса. Вычисляется глобальный вектор для другого аудио того же спикера и минимизируется косинусное расстояние между ним (с навешенным stop-gradient) и глобальным вектором таргета.

Towards Bitrate-Efficient and Noise-Robust Speech Coding with Variable Bitrate RVQ

Статья содержит две основные идеи.

Мотивация первой: в токенах можно не кодировать информацию о шуме, тем самым объединив задачи кодирования и enhancement и дополнительно сэкономив capacity.

Модель учится в две стадии. На первой кодек просто обучается на чистых данных. На второй — его учат удалять из токенов данные о шуме, то есть получать одинаковые токены для чистого и шумного аудио. Для этого в энкодер добавляют новый denoising-слой, а во время обучения искусственно зашумляют каждое аудио и добавляют к лоссу дополнительную компоненту: L1-расстояние между входом denoising-слоя для чистого аудио и выходом для шумного.

Вторая идея — адаптивный bitrate в зависимости от количества информации, содержащейся в каждом фрейме аудио. Например, фреймы с голосом можно кодировать более детально, чем фреймы с тишиной. Для этого на выходах энкодера обучается предиктор, возвращающий количество первых RVQ-токенов, которые необходимо просуммировать для данного фрейма. К лоссу добавляется дополнительная компонента — суммарное число предсказанных токенов.

Дарья Петренко ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13🔥11💯6

855 views10:05

Speech Info

Три идеи для улучшения ASR: DuRep, OWSM-Biasing и Pinyin-Guided ASR

Сегодня делимся подборкой трёх свежих работ по архитектурам и подходам в распознавании речи. Все они так или иначе решают задачу повышения устойчивости и адаптивности моделей.

DuRep: Dual-Mode Speech Representation Learning via ASR-Aware Distillation

Команда из Amazon предложила пайплайн для обучения, который включает несколько стадий. Сначала используется BestRQ pretraining, затем проводится full-context fine-tuning — тут ничего нового. Но дальше начинается интересное: авторы предлагают особый тип дистилляции, по сути дополнительный претрейн, после которого уже выполняется финальная настройка.

Под dual-mode здесь понимается не «аудио–текст», как может показаться, а режим, объединяющий стриминг и full-context. У исследователей есть full-context-энкодер, и они хотят получить dual-mode-энкодер, который можно использовать как претрейн. Для этого применяют кодбук и токенизацию, обучаясь с кросс-энтропийной функцией потерь — почти как в обычном претрейне.

Ключевой нюанс — жонглирование масками. Они рандомизируют как левый, так и правый контексты при обучении, что помогает улучшить качество кодирования.

Для стриминга это работает, потому что модель учится с учителем, имеющим полный контекст, и получает больше информации. Для full-context улучшения можно объяснить тем, что дистилляция с варьирующимися масками предотвращает переобучение: датасет у авторов не слишком сложный, и такая регуляризация помогает повысить общую устойчивость модели.

OWSM-Biasing: Contextualizing Open Whisper-Style Speech Models for Automatic Speech Recognition with Dynamic Vocabulary

Основная идея статьи в том, чтобы к seq2seq-модели добавить biasing list, который позволяет учитывать редкие или специфические слова (например, имена собственные). Редкие слова обычно разбиваются на несколько BPE-токенов, что мешает корректному распознаванию. Чтобы избежать этого, каждое слово из biasing list представляется как единый токен — элемент динамического словаря (<Raphael>, <Nelly> и т.д.).

Выходная матрица логитов расширяется за счёт этих слов, что позволяет модели напрямую предсказывать редкие слова как единые токены. Обучаются при этом только эмбеддинги и, по сути, деэмбеддинги.

Нюанс в том, что при генерации декодеру приходится выдавать такие токены, опираясь только на сигнал от biasing encoder. Это необычно, но при хорошем обучении, вероятно, сработает.

Во время тренировки в biasing list случайно добавляют слова из обучающего набора, чтобы модель училась работать с разнообразными словами.

Pinyin-Guided Chinese Speech Recognition with Large Language Model

Пиньинь — это упрощённая запись китайских иероглифов латинскими буквами (иногда с цифрами, обозначающими тоны). По сути, авторы обучают ASR-модель на базе LLM.

Китайские иероглифы могут произноситься по-разному, и здесь возникает дисбаланс: прозвучало одно, записано другое — модель может путаться. Поэтому авторы предлагают ввести промежуточное состояние: сначала модель выдаёт pinyin-токены, которые напрямую отражают произнесённое, а уже потом конвертирует их в целевые токены — сами китайские иероглифы.

Концептуально интересно, что модель фактически делает нечто вроде ризонинга: не выдаёт результат сразу, а проходит через дополнительный слой осмысления.

Идею можно применять и в других задачах: например, в переводе — сначала генерировать промежуточные слова на исходном языке, затем переводить; в музыке — восстанавливать произнесённые названия треков через промежуточное фонетическое представление; аналогично и с англицизмами — сначала фиксировать звучание, потом корректировать форму.

Евгений Ганкович ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10🔥5👍4

1.42K views12:32

About

Blog

Apps

Platform