Speech Info

Mamba-модели в задачах Speech Enhancement

Заключительный пост трилогии о Mamba. Впервые эту архитектуру упомянули в контексте задач Speech Enhancement в статье «An Investigation of Incorporating Mamba for Speech Enhancement».

В этой работе модель устроена довольно просто: waveform domain → Short-Time Fourier Transform (STFT) для перехода Time-Frequency domain → Encoder → TF-Mamba → Decoder → Inverse STFT → waveform domain. Авторы сравнивают Mamba с трансформерами и показывают, что достигают того же качества, но с меньшим числом FLOPs-операций и количеством параметров.

Использование Mamba-блоков продолжили развивать в другой статье: «Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement», где их добавляют в U-Net на этапе обработки скрытых представлений для улавливания как локальных, так и глобальных зависимостей. Каждый Mamba-блок — двунаправленный, что позволяет использовать информацию о будущем и прошлом. Архитектура модели стандартная для U-Net: состоит из нескольких downsample- и затем upsample-блоков со skip-connection между ними, как показано на картинке.

Рассмотрим Mamba-блоки (TS-Mamba) подробнее. Как сказано ранее, они двунаправленные: входное представление параллельно обрабатывается блоками Forward Mamba и Backward Mamba. Постпроцессинг (RMSNorm) применяется к выходам обоих блоков, затем результаты конкатенируются и прогоняются через линейный слой. Формально каждый Mamba-блок (forwardи backward) такой же, как и в предыдущих работах. Отметим, что авторы используют Mamba-блоки и по времени, и по частотам, чтобы учитывать и временные, и частотные зависимости.

Для экспериментов выбирают четыре варианта модели с разным количеством параметров (зависит от размерности C1 и количества TS-Mamba-блоков N):

— Mamba-SEUNet (XS) — 0.99M параметров;
— Mamba-SEUNet (S) — 1.88M параметров;
— Mamba-SEUNet (M) — 3.78M параметров;
— Mamba-SEUNet (L) — 6.28M параметров.

Их сравнивают c такими SOTA-моделями, как MP-SENet и SEMamba (упомянута в начале поста) на датасете VCTK+DEMAND. Согласно замерам маленькая модель Mamba-SEUNet (XS) показывает сопоставимое качество по метрикам CSIG (4.75), CBAK (3.95) и COVL (4.23), имея вдвое меньше параметров и в разы меньше FLOPs-операций.

Для сравнения Mamba-блоков с conformer- и transformer-блоками авторы используют текущий U-Net, в котором заменяют TS-Mamba на conformer и transformer соответственно. Замеры показывают, что Mamba-SEUNet сравним по качеству с U-Net’ами, у которых conformer или transformer вместо Mamba-блоков. Но Mamba-SEUNet имеет меньше FLOPS-операций, а по количеству параметров меньше или сравнимо с U-Net с conformer и transformer. Код модели выложен в открытый доступ.

Екатерина Кузина ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤1🔥1

10.7K views08:06

Speech Info

Билингвальный ASR — уже в станциях и чате с Алисой

Мы с хорошими новостями — теперь Алиса знает два языка: русский и английский! При этом распознавание русского не пострадало, а стало даже лучше. Обновлённая Алиса и поддержит диалог с носителем, и поможет улучшить навыки новичка. Мы ликуем, пользователи в восторге, а вот репетиторы и всем известная сова немного грустят.

Евгений Ганкович, руководитель группы ASR, рассказал, с какими вызовами столкнулась команда:

— Необходимо было обучить модель, которая способна работать с новым языком, при этом критически важно было не просадить качество на русском.
— Домен английского для русскоговорящих пользователей специфичен и не решается с помощью открытых данных.
— End-of-utterance (EOU) по многим причинам работает у англоговорящих пользователей иначе.
Разберём, почему нужно было создавать билингвальную модель, а не обучать две отдельные.

Сложность решения в том, что заранее неизвестно, на каком языке поступит запрос: пользователь может начать на русском, а продолжить на английском или наоборот.

В теории можно использовать классификатор: задан запрос, система определяет язык и направляет его в соответствующую модель. Но чтобы точно определить язык, придётся подождать несколько секунд. К тому же такая система сложнее в поддержке и плохо справляется со смешанными языками (см. «смотря какой fabric, смотря сколько details»).

Выходит, что разумный путь — развивать текущий русскоязычный стек до двуязычного и использовать одну модель, которая инкапсулирует логику выбора языка.

Однако и здесь есть подводные камни. Даже незначительное ухудшение распознавания на русском негативно скажется на пользовательском опыте. Поэтому новую логику в модель нужно добавлять осторожно. Причём улучшения вносятся в две ключевые части голосового стека:

- End-of-utterance (EOU) — модель на основе аудио и паршального распознавания, которая определяет, когда пользователь закончил говорить.
- E2E Seq2Seq на базе трансформеров — модель распознаёт завершённый фрагмент речи на русском или английском языках.

Чтобы улучшить эти две компоненты, нужны данные. Начать можно с открытых — но это другой домен: и акустика, и пользователи отличаются. Поэтому мы привлекли отдельных людей для создания более подходящих нам данных. Так собрали рабочее решение, но не сразу получили нужное качество.

Следующим шагом провели тесты на сотрудниках Яндекса, которые использовали колонку с раскатанной технологии. На этой стадии смогли собрать ошибки, необходимые для улучшения модели. Группы, на которые раскатывали технологию, росли по мере улучшения модели, а мы всё тоньше настраивали модель.

По мере появления данных мы проводили эксперименты с обеими моделями, подбирая датамиксы и гиперпараметры тренировок. И в какой-то момент достигли качества для полноценного распознавания целевых запросов на английском. Интересно, что в этих экспериментах получилось немного улучшить качество русского, так что исходную задачу даже перевыполнили.

Оставалось разобраться с EOU. Здесь были сложности из-за режима, в котором можно вести диалог с Алисой. Пользователи сценария могут делать паузы, растягивать слова, и в таких случаях обычная модель может преждевременно обрезать речь. Дослушивать мы тоже не можем — это может повлиять на другие компоненты и ответы Алисы сильно замедлятся.

Решение крылось в добавлении в пайплайн EoU более робастной и стабильной модели, способной учитывать паузы и длительность речи. Хотелось бы рассказать о технологии подробнее, но для этого потребуется описать весь пайплайн распознавания — если вам интересно, дайте знать в комментариях.

В итоге мы получили результат, который стал важной частью большого релиза:

— Голосовой набор сообщений на английском языке в чате и колонке;
— Сценарий диалогового тренажёра на колонке: пользователи могут вести диалог с Алисой, получать фидбек и переводить текст голосом.

Зовём протестировать, что у нас получилось: попробуйте поговорить с Алисой на английском или скажите: «Алиса, давай практиковать английский».

Евгений Ганкович ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12🔥2💯2

3.57K viewsedited 12:19

Speech Info

WavChat: A Survey of Spoken Dialogue Models. Часть 1/4

Сегодня поделимся ~~суммаризацией~~ главным из большого обзора разговорных ИИ. Сначала он кажется неплохой попыткой систематизировать происходящее в мире ALM: авторы анализируют тренды и на основе существующих публикаций пытаются понять, куда всë идёт и как было бы лучше. Но в какой-то момент статья начинает повторять саму себя. Тем не менее, лучшей попытки осознать происходящее мы не нашли. Давайте разбираться.

Идея объединить аудиомодальность с LLM давно будоражит умы академии и индустрии. Но долгое время никто толком не мог понять, для чего это нужно. Первой значимой попыткой можно назвать Whisper, который заставил seq2seq-модель предсказывать не только ASR, но и перевод.

На диаграмме легко заметить, какой именно момент развития ALM стал переломным и сделал очевидным, что нужно двигаться к разговорным моделям: когда коммьюнити узнало о GPT-4o. OpenAI показали, как аудиомодальность может сделать диалог с LLM естественным, почти бесшовным, решая между делом не только задачи распознавания синтеза, но и, например, классификацию скорости дыхания.

Авторы считают, что всё нужно свести к voice-to-voice диалоговому стеку. Его можно собрать из последовательной работы моделей (ASR-LLM-TTS), сделать end2end или составить из частичных фьюзов отдельных компонент. Трёхстадийный каскад ASR-LLM-TTS при этом предлагается считать бейслайном, о который нужно калиброваться. И побеждать его — учиться понимать особенности речи, воспринимать звуки, уместно отвечать или, наоборот, пропускать реплики.

В статье выделяют девять навыков, которыми должны обладать диалоговые модели:

- Text Intelligence;
- Speech Intelligence;
- Audio and Music Generation;
- Audio and Music Understanding;
- Multilingual Capability;
- Context Learning;
- Interaction Capability;
- Streaming Latency;
- Multimodal Capability.

Всё, что опубликовано по теме диалоговых систем за последний год, авторы предлагают классифицировать по разным признакам:

- Архитектура: end2end- и каскадные модели.
- Способ представления звука: токенизация или энкодер.
- Парадигма тренировки: использовали ли пост-претрейн, какие задачи решали.
- Подход к обеспечению диалоговости: стриминг, симплекс, дюплекс, полудюплекс.

Дальше попробуем пошагово проследить эту классификацию.

Продолжение следует.

Никита Рыжиков ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14❤10🔥2👀2

4.17K views08:02

Speech Info

WavChat: A Survey of Spoken Dialogue Models. Часть 2/4

Попробуем пошагово проследить классификацию, которую предлагают в большом обзоре разговорных ИИ.

Предыдущая часть

Классификация моделей по архитектуре: каскадность или сквозная реализация (end2end). С каскадными моделями всё стандартно. ASR конвертирует пользовательский запрос в текст и передаёт в LLM, а LLM отправляет ответ в TTS. Так работает большинство голосовых помощников прошлого поколения: они очень слабы в выражении эмоций, потому что, переводя входящий запрос в текст, теряют информацию о тоне голоса, эмоциях и интонациях. В итоге ответные реплики нейросети выглядят неестественно. Кроме того, при передаче данных из системы в систему добавляются паузы, что приводит к дополнительным задержками.

End2end-модели должны победить эту проблему: вместо того чтобы пошагово преобразовывать каждую фразу пользователя в текст, они работают сразу с аудио и учитывают невербальный контекст беседы.

Авторы выделяют модели вроде SALMONN или Qwen-Audio, которые объединяют не весь стек, а лишь его части: ASR+LLM и отдельная модель для TTS.

Классификация по способу представления звука: токенизация или энкодер. Перед созданием ALM нужно ответить на вопрос, каким образом модель будет обрабатывать звук. Есть два основных подхода. Энкодеры превращают аудио в непрерывное представление эмбеддов, а токенизаторы, наоборот, в дискретную последовательность — набор токенов, с которыми можно работать аналогично текстовым.

В случае с токенайзерами есть ещё одна точка ветвления — они могут быть семантическими или акустическими. Семантические (например, wav2vec, BEST-RQ, HuBERT и WavLM) восстанавливают участки аудио по контексту. А акустические (EnCodec, Mimi, SpeechTokenizer и т.д.) сжимают и разжимают аудио до ограниченного набора токенов.

Авторы отмечают, что токенайзеры, особенно акустические, сегодня доминируют в публикациях и позволяют реализовать next-token prediction — ключевой механизм для ALM. Но в итоге склоняются к тому, что будущее — за более сложными токейнайзерами, которые объединят в себе плюсы работы с семантическими и акустическими токенами.

Продолжение следует.

Никита Рыжиков ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍8❤1

865 viewsedited 08:34

Speech Info

This media is not supported in your browser

VIEW IN TELEGRAM

0:30

765 views12:58

❤1

Speech Info

У нас прямое включение из Сингапура, где ML-инженеры из Яндекса готовятся к началу ICLR`25! А пока предлагаем полюбоваться огнями вечерней столицы.

❤12🔥11⚡6

738 viewsedited 12:58

Speech Info

Первый день ICLR 2025: интересные статьи и один грустный тренд

Конференция ICLR 2025 идёт полным ходом. Статей на тему аудио пока не слишком много, но уже есть кое-что любопытное. Не стесняйтесь писать в комментариях — о чём ещё стоит рассказать.

Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks

Статья про бенчмарк для spoken language моделей. Представляет собой набор из множества задач по описанию разных аспектов для моделей, принимающих аудио на вход.

Авторы мало касаются диалогов или voice-to-voice-сценариев — фокус смещён на задачи распознавания, понимания и другие аспекты обработки аудио.

Число заданий увеличили с 70 до 180, и собираются сделать ещё больше. Оценка построена на иерархии задач, и внутри неё значения скоров осредняются без взвешивания.

Была первая фаза бенчмарка, сейчас идёт вторая, а в третьей говорят о диалоговых замерах.

SyllableLM: Learning Coarse Semantic Units for Speech Language Models

SyllableLM — дистилляция HuBERT с целью уменьшить число токенов и сделать их ближе к слогам. Синтез речи в статье не оценивался, и авторы отметили, что рецензенты тоже грустили по этому поводу. Примеры генерации из полученных токенов есть на сайте, но, судя по всему, не очень хорошие.

Flow Matching Achieves Almost Minimax Optimal Convergence

Рубрика «Если долго ~~сидеть на берегу реки, можно увидеть, как проплывает труп твоего врага»~~игнорировать ML-тренд (а именно Flow Matching), можно увидеть статью, его обличающую». Авторы показывают, что гарантии сходимости по времени для Flow Matching и обычного диффузионного процесса имеют одинаковый порядок. Но сравнивать эти подходы напрямую сложно: один оценивает сходимость через KL-дивергенцию, другой — через расстояние Вассерштейна.

И напоследок — немного печальный тренд

Кажется, квантовые фонды (Hudson River Trading, Jane Street, Jump Trading и прочие) пытаются доминировать: в выставочном центре очень много их стендов. Не теряем надежды увидеть больше научных работ!

Никита Рыжиков и Степан Комков ❣ специально для Speech Info

#YaICLR

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14👍9🔥3

796 views12:34

Speech Info

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Немного кадров с места событий: масштабы холлов, атмосфера докладов, фантастические виды и яркие сингапурские цветы (Нейро говорит, что это Муссенда филиппинская).

Speech Info

#YaICLR

❤3👍2

699 views11:06

Speech Info

Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Мечта многих — заменить олдскул в аудиокодеках на нормальный трансформер. У авторов это, наконец, получилось, хоть и не сразу. Они обнаружили, что «трансформер в лоб» не работает — и пошли разбираться почему. На постере причину не написали, но мы спросили — ведь ML-аудитории важны не только архитектура и таблички с метриками.

Так вот. Если обучить трансформерный кодек и проверить его через adversarial-атаку на дискриминатор, можно увидеть: искажения группируются по границам STFT-патчей, которые мы снимаем с wave-формы. Это значит, что трансформеры умеют подстраиваться под дискриминатор, ломая wave-форму в правильных узких областях. А эти узкие места всегда повторяются из-за регулярности периодичности.

Можно заметить, что сейчас мода на дискриминаторы с периодикой по простым числам. Авторы действуют нестандартно: используют дискриминаторы не по числам, а по золотому сечению. Говорят, что просто перебирали разные периодичности и пришли к этому решению. (Ссылку на

работу Луки Пачоли

дать забыли).

Ещё одна находка: моменты тишины убивают LayerNorm-статистики, поэтому сеть учится их игнорировать. Выход простой: значительно увеличивать эпсилон в формуле.

В остальном — авторы честно признались, что использовали FSQ, потому что это модно, а размер кодбука был спущен сверху продуктово.

В целом это всё напоминает статью Zoom с Interspeech, где использовали достаточно большой дискриминатор — и без просадок в инференсе получили буст качества.

Степан Комков ❣ специально для Speech Info

#YaICLR

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14❤5👀1

892 viewsedited 13:22

Speech Info

ICLR 2025 в Сингапуре близится к завершению

В этом году конференция приняла 3704 статьи (из 11 672 поданных). Для сравнения: в прошлом году их было 2 260. Мы старались освещать наиболее интересные работы, а в этом посте собрали все наши материалы о ICLR 2025:

- Прямое включение из Сингапура
- Подборка интересных статей первого дня конференции
- Атмосферные фото и видео с места событий
- Обзор статьи “Scaling Transformers for Low-Bitrate High-Quality Speech Coding”

А ещё к нам в руки попали любопытные фото: так выглядят четыре дня на другой крупной конференции (сверху) и два дня на ICLR (снизу) — интенсивность программы видна невооружённым глазом!

Больше разборов, интересных постеров, фото и видео с ICLR вы найдёте в наших других каналах: @timeforcv, @RecSysChannel, @MLunderhood, @stuffyNLP.

Speech Info

#YaICLR

❤4👍2🔥1

923 views08:04

Speech Info

Как Яндекс Браузер переводит видео с сохранением оригинальных голосов

Перевод видео в Яндекс Браузере появился ещё в 2021 году. Сегодня компания представляет новую версию этой технологии, способную сохранять тембр и интонации оригинального голоса. А сам перевод стал точнее благодаря YandexGPT. В статье на Хабре вы можете почитать все подробности о том, как устроен инструмент, а здесь расскажем коротко.

В основе технологии синтеза речи лежит модифицированная опенсорс-модель Tortoise-TTS. Сама по себе она выдаёт результаты хорошего качества, почти неотличимые от человеческой речи. Однако есть несколько проблем, которые не позволяют использовать модель в продакшене.

Одна из них связана с качеством zero-shot-синтеза, то есть генерации аудио тем же голосом, что и в аудиопромпте. Результат может быть не похожим на исходник, а при переносе тембра с английского на русский появляется акцент.

Чтобы исправить это, в Яндексе использовали фонемное представление текста и создали общий алфавит для английских и русских фонем. Благодаря этому произношение модели стало более правильным. Для моделирования тембра голоса внедрили биометрические эмбеддинги и контролировали качество речи с помощью метрики UTMOS. А проблему акцента при переводе с английского на русский решили с помощью синтетического датасета, где голос одного и того же человека представлен на двух языках.

Ещё один недостаток Tortoise-TTS — низкая скорость инференса, из-за которой модель и получила своё название. В Яндексе оптимизировали её архитектуру, уменьшили количество итераций в диффузионной модели и применили технику дистилляции знаний. Благодаря этому, генерация ответа происходит в реальном времени.

SBS-тестирование показало, что новый перевод видео в Яндекс Браузере значительно превосходит решение ElevenLabs: 62% побед против 34%. Что касается исключительно озвучивания, то есть превращения текста в речь, то здесь система Яндекса также впереди: 46% против 42%.

Speech Info

🔥13❤7🥰3

3.41K viewsedited 09:59

Speech Info

Кто о чём, а мы — продолжаем делиться постерами с ICLR!

Несём ещё несколько любопытных работ, которые заметили и прокомментировали наши засланные казачки.

Restructuring Vector Quantization with the Rotation Trick

Чтобы лучше реконструировать входные данные в VQ-VAE, нужен всего лишь простой советский... Rotation trick! Суть идеи в том, что за счёт поворота центры кластеров сдвигаются в разные стороны, что заставляет лучше использовать векторы в кодбуке. Добавляются три строчки кода без замедления обучения — и получается качество реконструкции на уровне VQ-GAN. Есть код — и, учитывая простоту имплементации, решение можно будет легко попробовать на практике.

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Vision-Language Model Dialog Games for Self-Improvement

Две независимые друг от друга работы. В первой — сделали несколько процедурно генерируемых игр. Стэйты игр скармливали разным LLM в текстовом и визуальном формате и замеряли качество работы — лучшие результаты у Gemini. Во второй статье отметили, что Gemini «из коробки» неплохо справляется с процедурно генерируемыми играми разной семантики. (Есть предположение, что Google использует текстовое описание партий игр, как источник данных на претрейне).

Speech Robust Bench: A Robustness Benchmark For Speech Recognition

Авторы предложили бенчмарк для сравнения моделей распознавания речи по разным аспектам: устойчивости к шуму, far-field и акценту. Правда, в их формуле расчёта упоминается не самая надёжная метрика PESQ, а обсудить этот выбор на месте, к сожалению, было не с кем: авторы не приехали.

Aria-MIDI: A Dataset of Piano MIDI Files for Symbolic Music Modeling

Собрали датасет с YouTube — выбрали записи с чистой игрой на пианино. На основе них с помощью пайплайна MAESTRO подготовили датасет, который можно использовать для генеративной музыки. Также обучили модель, которая делает MIDI-транскрипцию аудиофайлов. Бонус: на постере есть красивая визуализация со сравнением композиторов (в самой статье её нет).

Никита Рыжиков, Степан Комков и Влад Батаев ❣ специально для Speech Info

#YaICLR

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍5🔥2🥴1

1.12K views14:35

About

Blog

Apps

Platform