AI Для Всех
12.1K subscribers
1.03K photos
127 videos
10 files
1.31K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing (Microsoft)

Self-supervised learning (SSL) уже достигло больших успехов в распознавании речи. При этом в для других задач обработки речи были предприняты лишь ограниченные попытки. Поскольку речевой сигнал содержит многогранную информацию, включая личность диктора, паралингвистику, содержание речи и т.д., обучение универсальным представлениям для всех речевых задач является сложной задачей.

В этой статье авторы предлагают новую модель WavLM для решения речевых задач полного стека. WavLM построена на основе архитектуры HuBERT с акцентом на моделирование речевого контента и сохранение идентичности диктора.

📎 Статья
🖥 Код

#SSL #signals #speech #audio
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale

XLS-R - модель для обучения межъязыковым репрезентациям устной речи, основанная на wav2vec 2.0. Авторы из MetaAI (Facebook) обучили модель с
2B параметров на почти полумиллионе часов общедоступных аудиозаписей речи на 128 языках.

По аналогии с задачей моделирования языка по маске в BERT, XLS-R обучается контекстуализированным представлениям речи путем случайной маскировки векторов признаков перед передачей их в self-supervised transformer (т.е. диаграмма слева внизу).

XLS-R демонстрирует впечатляющие улучшения по сравнению с предыдущими SOTA в распознавании речи, переводе речи и идентификации диктора/языка.

📎 Статья
🔭 Блог-пост
🖥 Код
🤗 Демо

#SSL #sound #audio #speech
PolyViT: Co-training Vision Transformers on Images, Videos and Audio

Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?

Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.

📎 Статья

#multimodal #audio #video #images #transformer