This media is not supported in your browser
VIEW IN TELEGRAM
The Cocktail Fork Problem:
Three-Stem Audio Separation for Real-World Soundtracks
Проблема коктейльной вечеринки (как разделить речь нескольких, говорящих одновременно, людей на разные дорожки) уже давно вдохновляет исследования по разделению источников звука (source separation). Недавние усилия в основном были направлены на отделение речи от шума, речи от речи, музыкальных инструментов друг от друга или звуковых событий друг от друга.
Однако разделение аудио смеси (например, звуковой дорожки фильма) на три широкие категории: речь, музыка и звуковые эффекты (под которыми здесь понимается шум окружающей среды и естественные звуковые события) осталось практически неисследованным, несмотря на широкий спектр потенциальных применений.
И конечно же, именно такую сеть сделали и описали в статье. Пиратский дубляж ликует!
📎 Статья
📽 Проект
#sound #audio #signals
Three-Stem Audio Separation for Real-World Soundtracks
Проблема коктейльной вечеринки (как разделить речь нескольких, говорящих одновременно, людей на разные дорожки) уже давно вдохновляет исследования по разделению источников звука (source separation). Недавние усилия в основном были направлены на отделение речи от шума, речи от речи, музыкальных инструментов друг от друга или звуковых событий друг от друга.
Однако разделение аудио смеси (например, звуковой дорожки фильма) на три широкие категории: речь, музыка и звуковые эффекты (под которыми здесь понимается шум окружающей среды и естественные звуковые события) осталось практически неисследованным, несмотря на широкий спектр потенциальных применений.
И конечно же, именно такую сеть сделали и описали в статье. Пиратский дубляж ликует!
📎 Статья
📽 Проект
#sound #audio #signals
🤯 wav2CLIP
Новый метод обучения аудиопредставлений путем дистилляции из контрастивного предварительного обучения языку и изображению (CLIP).
Авторы оценивают Wav2CLIP на различных аудиозадачах, включая классификацию, поиск и генерацию, и показывают, что Wav2CLIP превосходит общедоступные алгоритмы предварительного обучения audio representation.
Wav2CLIP проецирует аудио в общее пространство эмбедингов с изображениями и текстом, что позволяет использовать его в мультимодальных задачах, таких как классификация zero-shot и кросс-модальный поиск. Более того, Wav2CLIP требуется всего ~10% от данных необходимых для supervised learning.
📎 Статья
🖥 Код
#clip #audio #video #multimodal
Новый метод обучения аудиопредставлений путем дистилляции из контрастивного предварительного обучения языку и изображению (CLIP).
Авторы оценивают Wav2CLIP на различных аудиозадачах, включая классификацию, поиск и генерацию, и показывают, что Wav2CLIP превосходит общедоступные алгоритмы предварительного обучения audio representation.
Wav2CLIP проецирует аудио в общее пространство эмбедингов с изображениями и текстом, что позволяет использовать его в мультимодальных задачах, таких как классификация zero-shot и кросс-модальный поиск. Более того, Wav2CLIP требуется всего ~10% от данных необходимых для supervised learning.
📎 Статья
🖥 Код
#clip #audio #video #multimodal
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing (Microsoft)
Self-supervised learning (SSL) уже достигло больших успехов в распознавании речи. При этом в для других задач обработки речи были предприняты лишь ограниченные попытки. Поскольку речевой сигнал содержит многогранную информацию, включая личность диктора, паралингвистику, содержание речи и т.д., обучение универсальным представлениям для всех речевых задач является сложной задачей.
В этой статье авторы предлагают новую модель WavLM для решения речевых задач полного стека. WavLM построена на основе архитектуры HuBERT с акцентом на моделирование речевого контента и сохранение идентичности диктора.
📎 Статья
🖥 Код
#SSL #signals #speech #audio
Self-supervised learning (SSL) уже достигло больших успехов в распознавании речи. При этом в для других задач обработки речи были предприняты лишь ограниченные попытки. Поскольку речевой сигнал содержит многогранную информацию, включая личность диктора, паралингвистику, содержание речи и т.д., обучение универсальным представлениям для всех речевых задач является сложной задачей.
В этой статье авторы предлагают новую модель WavLM для решения речевых задач полного стека. WavLM построена на основе архитектуры HuBERT с акцентом на моделирование речевого контента и сохранение идентичности диктора.
📎 Статья
🖥 Код
#SSL #signals #speech #audio
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale
XLS-R - модель для обучения межъязыковым репрезентациям устной речи, основанная на wav2vec 2.0. Авторы из MetaAI (Facebook) обучили модель с
2B параметров на почти полумиллионе часов общедоступных аудиозаписей речи на 128 языках.
По аналогии с задачей моделирования языка по маске в BERT, XLS-R обучается контекстуализированным представлениям речи путем случайной маскировки векторов признаков перед передачей их в self-supervised transformer (т.е. диаграмма слева внизу).
XLS-R демонстрирует впечатляющие улучшения по сравнению с предыдущими SOTA в распознавании речи, переводе речи и идентификации диктора/языка.
📎 Статья
🔭 Блог-пост
🖥 Код
🤗 Демо
#SSL #sound #audio #speech
XLS-R - модель для обучения межъязыковым репрезентациям устной речи, основанная на wav2vec 2.0. Авторы из MetaAI (Facebook) обучили модель с
2B параметров на почти полумиллионе часов общедоступных аудиозаписей речи на 128 языках.
По аналогии с задачей моделирования языка по маске в BERT, XLS-R обучается контекстуализированным представлениям речи путем случайной маскировки векторов признаков перед передачей их в self-supervised transformer (т.е. диаграмма слева внизу).
XLS-R демонстрирует впечатляющие улучшения по сравнению с предыдущими SOTA в распознавании речи, переводе речи и идентификации диктора/языка.
📎 Статья
🔭 Блог-пост
🖥 Код
🤗 Демо
#SSL #sound #audio #speech
PolyViT: Co-training Vision Transformers on Images, Videos and Audio
Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?
Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.
📎 Статья
#multimodal #audio #video #images #transformer
Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?
Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.
📎 Статья
#multimodal #audio #video #images #transformer