AI Для Всех
12.8K subscribers
1.17K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Audio Captioning Transformer

Было бы круто обучить такую же модель, но для описания последовательностей/временных рядов. Например для графиков давления - типа «давление падает в виду движения циклона на северо-восток».

#waveforms #audio #captioning
Датасет жужжания москитов. Видимо что бы по звуку можно было определять виды этих комаров.

#datasets #ScientificML #sound #audio
SoundStream - an End-to-End Neural Audio Codec

Аудиокодеки используются для эффективного сжатия звука с целью снижения требований к хранению или пропускной способности сети.

SoundStream - это первый нейрокодек для работы с речью и музыкой, который может работать в режиме реального времени на процессоре смартфона. Он способен обеспечить современное качество в широком диапазоне битрейтов с помощью одной обученной модели, что представляет собой значительный прогресс в области обучаемых кодеков.

Блог-пост и сэмплы
Обещают скоро зарелизить код

#sound #signals #compression #audio #speech #music
W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training (Google Brain)

Мотивированные успехом масочного моделирования языка~(MLM) в предварительном обучении моделей обработки естественного языка, авторы предлагают w2v-BERT, который использует MLM для self-supervised learning speech representation. w2v-BERT - это модель, которая сочетает контрастивное обучение и MLM, где первое обучает модель дискретизировать непрерывные речевые сигналы на конечный набор дискриминирующих речевых лексем, а второе обучает модель обучению контекстуализированных представлений речи через решение задачи предсказания с маской, которой на вход подаются дискретизированные лексемы.

w2v-BERT может быть оптимизирована end-to-end. Эксперименты авторов показывают, что w2v-BERT достигает конкурентоспособных результатов по сравнению с текущими современными pretrained modes на эталонах LibriSpeech при использовании корпуса Libri-Light~60k в качестве данных для deg-supervised learning. В частности, по сравнению с опубликованными моделями, такими как wav2vec~2.0 и HuBERT, модель показывает от ~5% до ~10% относительного снижения WER на подмножествах test-clean и test-other. При применении к набору данных трафика голосового поиска Google, w2v-BERT превосходит нашу внутреннюю модель wav2vec~2.0 на основе конформера более чем на 30%.

ArXiv

#SSL #speech #audio
NeuralCompression (Facebook research)

NeuralCompression - это PyTorch репозиторий, посвященный исследованию нейронных сетей, сжимающих данные. Репозиторий включает такие инструменты, как энтропийные кодеры на основе JAX, модели сжатия изображений, модели сжатия видео, а также метрики для оценки изображений и видео.

#compression #audio #video #images
Textless NLP: Generating expressive speech from raw audio

Facebook AI представили Generative Spoken Language Model (GSLM), первую высокопроизводительную модель NLP, которая освобождается от зависимости от текста. GSLM использует последние достижения в области representation learning, что позволяет ей работать непосредственно на основе только необработанных аудиосигналов, без каких-либо меток или текста. Это открывает дверь в новую эру безтекстовых приложений НЛП для потенциально любого языка, на котором говорят на Земле - даже тех, которые не имеют значительных наборов текстовых данных.

Модель работает примерно как BERT, но естественно со своими особенностями.

По сути, Facebook говорит - ASR устарел и работать теперь распознованием речи будет по принципу "из конца в конец", от речевого входа до речевого выхода. Они сравнивают свою систему с дошкольником, который увит язык исключительно на основе сенсорного опыта.

Блог-пост
Статья 1
Статья 2
Статья 3
Код

#audio #speech #SSL #nlp
This media is not supported in your browser
VIEW IN TELEGRAM
StyleGAN3 Music Video

Вдохновившись танцующими котиками, сделал демку для генерации музыкальных видео. Можно использовать со всеми доступнами моделями StyleGAN и с любыми музыкальными трэками (привзяно к частотам)

💻Играть в моем колабе

#GAN #demo #audio