AI Для Всех
12.8K subscribers
1.18K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
SoundStream - an End-to-End Neural Audio Codec

Аудиокодеки используются для эффективного сжатия звука с целью снижения требований к хранению или пропускной способности сети.

SoundStream - это первый нейрокодек для работы с речью и музыкой, который может работать в режиме реального времени на процессоре смартфона. Он способен обеспечить современное качество в широком диапазоне битрейтов с помощью одной обученной модели, что представляет собой значительный прогресс в области обучаемых кодеков.

Блог-пост и сэмплы
Обещают скоро зарелизить код

#sound #signals #compression #audio #speech #music
This media is not supported in your browser
VIEW IN TELEGRAM
The Cocktail Fork Problem:‌‌‌‌
Three-Stem Audio Separation for Real-World Soundtracks


Проблема коктейльной вечеринки (как разделить речь нескольких, говорящих одновременно, людей на разные дорожки) уже давно вдохновляет исследования по разделению источников звука (source separation). Недавние усилия в основном были направлены на отделение речи от шума, речи от речи, музыкальных инструментов друг от друга или звуковых событий друг от друга.

Однако разделение аудио смеси (например, звуковой дорожки фильма) на три широкие категории: речь, музыка и звуковые эффекты (под которыми здесь понимается шум окружающей среды и естественные звуковые события) осталось практически неисследованным, несмотря на широкий спектр потенциальных применений.

И конечно же, именно такую сеть сделали и описали в статье. Пиратский дубляж ликует!

📎 Статья
📽 Проект

#sound #audio #signals
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing (Microsoft)

Self-supervised learning (SSL) уже достигло больших успехов в распознавании речи. При этом в для других задач обработки речи были предприняты лишь ограниченные попытки. Поскольку речевой сигнал содержит многогранную информацию, включая личность диктора, паралингвистику, содержание речи и т.д., обучение универсальным представлениям для всех речевых задач является сложной задачей.

В этой статье авторы предлагают новую модель WavLM для решения речевых задач полного стека. WavLM построена на основе архитектуры HuBERT с акцентом на моделирование речевого контента и сохранение идентичности диктора.

📎 Статья
🖥 Код

#SSL #signals #speech #audio