SoundStream - an End-to-End Neural Audio Codec
Аудиокодеки используются для эффективного сжатия звука с целью снижения требований к хранению или пропускной способности сети.
SoundStream - это первый нейрокодек для работы с речью и музыкой, который может работать в режиме реального времени на процессоре смартфона. Он способен обеспечить современное качество в широком диапазоне битрейтов с помощью одной обученной модели, что представляет собой значительный прогресс в области обучаемых кодеков.
Блог-пост и сэмплы
Обещают скоро зарелизить код
#sound #signals #compression #audio #speech #music
Аудиокодеки используются для эффективного сжатия звука с целью снижения требований к хранению или пропускной способности сети.
SoundStream - это первый нейрокодек для работы с речью и музыкой, который может работать в режиме реального времени на процессоре смартфона. Он способен обеспечить современное качество в широком диапазоне битрейтов с помощью одной обученной модели, что представляет собой значительный прогресс в области обучаемых кодеков.
Блог-пост и сэмплы
Обещают скоро зарелизить код
#sound #signals #compression #audio #speech #music
This media is not supported in your browser
VIEW IN TELEGRAM
The Cocktail Fork Problem:
Three-Stem Audio Separation for Real-World Soundtracks
Проблема коктейльной вечеринки (как разделить речь нескольких, говорящих одновременно, людей на разные дорожки) уже давно вдохновляет исследования по разделению источников звука (source separation). Недавние усилия в основном были направлены на отделение речи от шума, речи от речи, музыкальных инструментов друг от друга или звуковых событий друг от друга.
Однако разделение аудио смеси (например, звуковой дорожки фильма) на три широкие категории: речь, музыка и звуковые эффекты (под которыми здесь понимается шум окружающей среды и естественные звуковые события) осталось практически неисследованным, несмотря на широкий спектр потенциальных применений.
И конечно же, именно такую сеть сделали и описали в статье. Пиратский дубляж ликует!
📎 Статья
📽 Проект
#sound #audio #signals
Three-Stem Audio Separation for Real-World Soundtracks
Проблема коктейльной вечеринки (как разделить речь нескольких, говорящих одновременно, людей на разные дорожки) уже давно вдохновляет исследования по разделению источников звука (source separation). Недавние усилия в основном были направлены на отделение речи от шума, речи от речи, музыкальных инструментов друг от друга или звуковых событий друг от друга.
Однако разделение аудио смеси (например, звуковой дорожки фильма) на три широкие категории: речь, музыка и звуковые эффекты (под которыми здесь понимается шум окружающей среды и естественные звуковые события) осталось практически неисследованным, несмотря на широкий спектр потенциальных применений.
И конечно же, именно такую сеть сделали и описали в статье. Пиратский дубляж ликует!
📎 Статья
📽 Проект
#sound #audio #signals
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing (Microsoft)
Self-supervised learning (SSL) уже достигло больших успехов в распознавании речи. При этом в для других задач обработки речи были предприняты лишь ограниченные попытки. Поскольку речевой сигнал содержит многогранную информацию, включая личность диктора, паралингвистику, содержание речи и т.д., обучение универсальным представлениям для всех речевых задач является сложной задачей.
В этой статье авторы предлагают новую модель WavLM для решения речевых задач полного стека. WavLM построена на основе архитектуры HuBERT с акцентом на моделирование речевого контента и сохранение идентичности диктора.
📎 Статья
🖥 Код
#SSL #signals #speech #audio
Self-supervised learning (SSL) уже достигло больших успехов в распознавании речи. При этом в для других задач обработки речи были предприняты лишь ограниченные попытки. Поскольку речевой сигнал содержит многогранную информацию, включая личность диктора, паралингвистику, содержание речи и т.д., обучение универсальным представлениям для всех речевых задач является сложной задачей.
В этой статье авторы предлагают новую модель WavLM для решения речевых задач полного стека. WavLM построена на основе архитектуры HuBERT с акцентом на моделирование речевого контента и сохранение идентичности диктора.
📎 Статья
🖥 Код
#SSL #signals #speech #audio