AI Для Всех
12.8K subscribers
1.17K photos
152 videos
10 files
1.37K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
SoundStream - an End-to-End Neural Audio Codec

Аудиокодеки используются для эффективного сжатия звука с целью снижения требований к хранению или пропускной способности сети.

SoundStream - это первый нейрокодек для работы с речью и музыкой, который может работать в режиме реального времени на процессоре смартфона. Он способен обеспечить современное качество в широком диапазоне битрейтов с помощью одной обученной модели, что представляет собой значительный прогресс в области обучаемых кодеков.

Блог-пост и сэмплы
Обещают скоро зарелизить код

#sound #signals #compression #audio #speech #music
W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training (Google Brain)

Мотивированные успехом масочного моделирования языка~(MLM) в предварительном обучении моделей обработки естественного языка, авторы предлагают w2v-BERT, который использует MLM для self-supervised learning speech representation. w2v-BERT - это модель, которая сочетает контрастивное обучение и MLM, где первое обучает модель дискретизировать непрерывные речевые сигналы на конечный набор дискриминирующих речевых лексем, а второе обучает модель обучению контекстуализированных представлений речи через решение задачи предсказания с маской, которой на вход подаются дискретизированные лексемы.

w2v-BERT может быть оптимизирована end-to-end. Эксперименты авторов показывают, что w2v-BERT достигает конкурентоспособных результатов по сравнению с текущими современными pretrained modes на эталонах LibriSpeech при использовании корпуса Libri-Light~60k в качестве данных для deg-supervised learning. В частности, по сравнению с опубликованными моделями, такими как wav2vec~2.0 и HuBERT, модель показывает от ~5% до ~10% относительного снижения WER на подмножествах test-clean и test-other. При применении к набору данных трафика голосового поиска Google, w2v-BERT превосходит нашу внутреннюю модель wav2vec~2.0 на основе конформера более чем на 30%.

ArXiv

#SSL #speech #audio
NeuralCompression (Facebook research)

NeuralCompression - это PyTorch репозиторий, посвященный исследованию нейронных сетей, сжимающих данные. Репозиторий включает такие инструменты, как энтропийные кодеры на основе JAX, модели сжатия изображений, модели сжатия видео, а также метрики для оценки изображений и видео.

#compression #audio #video #images
Textless NLP: Generating expressive speech from raw audio

Facebook AI представили Generative Spoken Language Model (GSLM), первую высокопроизводительную модель NLP, которая освобождается от зависимости от текста. GSLM использует последние достижения в области representation learning, что позволяет ей работать непосредственно на основе только необработанных аудиосигналов, без каких-либо меток или текста. Это открывает дверь в новую эру безтекстовых приложений НЛП для потенциально любого языка, на котором говорят на Земле - даже тех, которые не имеют значительных наборов текстовых данных.

Модель работает примерно как BERT, но естественно со своими особенностями.

По сути, Facebook говорит - ASR устарел и работать теперь распознованием речи будет по принципу "из конца в конец", от речевого входа до речевого выхода. Они сравнивают свою систему с дошкольником, который увит язык исключительно на основе сенсорного опыта.

Блог-пост
Статья 1
Статья 2
Статья 3
Код

#audio #speech #SSL #nlp
This media is not supported in your browser
VIEW IN TELEGRAM
StyleGAN3 Music Video

Вдохновившись танцующими котиками, сделал демку для генерации музыкальных видео. Можно использовать со всеми доступнами моделями StyleGAN и с любыми музыкальными трэками (привзяно к частотам)

💻Играть в моем колабе

#GAN #demo #audio
This media is not supported in your browser
VIEW IN TELEGRAM
The Cocktail Fork Problem:‌‌‌‌
Three-Stem
Audio Separation for Real-World Soundtracks

Проблема коктейльной вечеринки (как разделить речь нескольких, говорящих одновременно, людей на разные дорожки) уже давно вдохновляет исследования по разделению источников звука (source separation). Недавние усилия в основном были направлены на отделение речи от шума, речи от речи, музыкальных инструментов друг от друга или звуковых событий друг от друга.

Однако разделение аудио смеси (например, звуковой дорожки фильма) на три широкие категории: речь, музыка и звуковые эффекты (под которыми здесь понимается шум окружающей среды и естественные звуковые события) осталось практически неисследованным, несмотря на широкий спектр потенциальных применений.

И конечно же, именно такую сеть сделали и описали в статье. Пиратский дубляж ликует!

📎 Статья
📽 Проект

#sound #audio #signals
🤯 wav2CLIP

Новый метод обучения аудиопредставлений путем дистилляции из контрастивного предварительного обучения языку и изображению (CLIP).

Авторы оценивают Wav2CLIP на различных аудиозадачах, включая классификацию, поиск и генерацию, и показывают, что Wav2CLIP превосходит общедоступные алгоритмы предварительного обучения audio representation.

Wav2CLIP проецирует аудио в общее пространство эмбедингов с изображениями и текстом, что позволяет использовать его в мультимодальных задачах, таких как классификация zero-shot и кросс-модальный поиск. Более того, Wav2CLIP требуется всего ~10% от данных необходимых для supervised learning.

📎 Статья
🖥 Код

#clip #audio #video #multimodal
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing (Microsoft)

Self-supervised learning (SSL) уже достигло больших успехов в распознавании речи. При этом в для других задач обработки речи были предприняты лишь ограниченные попытки. Поскольку речевой сигнал содержит многогранную информацию, включая личность диктора, паралингвистику, содержание речи и т.д., обучение универсальным представлениям для всех речевых задач является сложной задачей.

В этой статье авторы предлагают новую модель WavLM для решения речевых задач полного стека. WavLM построена на основе архитектуры HuBERT с акцентом на моделирование речевого контента и сохранение идентичности диктора.

📎 Статья
🖥 Код

#SSL #signals #speech #audio
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale

XLS-R - модель для обучения межъязыковым репрезентациям устной речи, основанная на wav2vec 2.0. Авторы из MetaAI (Facebook) обучили модель с
2B параметров на почти полумиллионе часов общедоступных аудиозаписей речи на 128 языках.

По аналогии с задачей моделирования языка по маске в BERT, XLS-R обучается контекстуализированным представлениям речи путем случайной маскировки векторов признаков перед передачей их в self-supervised transformer (т.е. диаграмма слева внизу).

XLS-R демонстрирует впечатляющие улучшения по сравнению с предыдущими SOTA в распознавании речи, переводе речи и идентификации диктора/языка.

📎 Статья
🔭 Блог-пост
🖥 Код
🤗 Демо

#SSL #sound #audio #speech
PolyViT: Co-training Vision Transformers on Images, Videos and Audio

Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?

Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.

📎 Статья

#multimodal #audio #video #images #transformer