AI Для Всех
12.8K subscribers
1.17K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Приложение, чтобы определять птиц по голосу.

#ScientificML #sound
Датасет жужжания москитов. Видимо что бы по звуку можно было определять виды этих комаров.

#datasets #ScientificML #sound #audio
Audio
neural waveshaping synthesis

С помощью нейросетей теперь можно переиграть любой звук виолончелью, флейтой или трубой. Любой желающий может сделать это, перейдя по ссылке.

А вот код для запуска у себя на ПК и cтатья на arxiv про эту нейросеть.

На сайте Gradio есть ещё очень много интересных демо-приложений с разными нейросетями.

Пример: известная мелодия из Rick Astley - Never Gonna Give You Up на виолончели. Звук сгенерирован полностью нейросетью.

Советую сделать звук динамиков потише.

#code #sound #signal #generative
SoundStream - an End-to-End Neural Audio Codec

Аудиокодеки используются для эффективного сжатия звука с целью снижения требований к хранению или пропускной способности сети.

SoundStream - это первый нейрокодек для работы с речью и музыкой, который может работать в режиме реального времени на процессоре смартфона. Он способен обеспечить современное качество в широком диапазоне битрейтов с помощью одной обученной модели, что представляет собой значительный прогресс в области обучаемых кодеков.

Блог-пост и сэмплы
Обещают скоро зарелизить код

#sound #signals #compression #audio #speech #music
SSAST: Self-Supervised Audio Spectrogram Transformer

Вообще стараюсь не писать про статьи без кода, но тут прям круг замкнулся. Следите за руками. Сначала придумали DL для картинок, потом попробовали применять этот картиночный DL к сигналам, поняли что что-то не так. Придумали использовать его на спектрограммах (2х мерное представление звука) - заработало. Потом придумали трансформеры, что бы работать непосредственно с time-series. Класс, все работает. Но! Потом придумали трансформеры для картинок (Visual Transformers - ViT), а теперь их же используют для спектрограмм. У меня все.

📎Статья

#transformer #signal #sound #SSL
This media is not supported in your browser
VIEW IN TELEGRAM
The Cocktail Fork Problem:‌‌‌‌
Three-Stem Audio Separation for Real-World Soundtracks


Проблема коктейльной вечеринки (как разделить речь нескольких, говорящих одновременно, людей на разные дорожки) уже давно вдохновляет исследования по разделению источников звука (source separation). Недавние усилия в основном были направлены на отделение речи от шума, речи от речи, музыкальных инструментов друг от друга или звуковых событий друг от друга.

Однако разделение аудио смеси (например, звуковой дорожки фильма) на три широкие категории: речь, музыка и звуковые эффекты (под которыми здесь понимается шум окружающей среды и естественные звуковые события) осталось практически неисследованным, несмотря на широкий спектр потенциальных применений.

И конечно же, именно такую сеть сделали и описали в статье. Пиратский дубляж ликует!

📎 Статья
📽 Проект

#sound #audio #signals
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale

XLS-R - модель для обучения межъязыковым репрезентациям устной речи, основанная на wav2vec 2.0. Авторы из MetaAI (Facebook) обучили модель с
2B параметров на почти полумиллионе часов общедоступных аудиозаписей речи на 128 языках.

По аналогии с задачей моделирования языка по маске в BERT, XLS-R обучается контекстуализированным представлениям речи путем случайной маскировки векторов признаков перед передачей их в self-supervised transformer (т.е. диаграмма слева внизу).

XLS-R демонстрирует впечатляющие улучшения по сравнению с предыдущими SOTA в распознавании речи, переводе речи и идентификации диктора/языка.

📎 Статья
🔭 Блог-пост
🖥 Код
🤗 Демо

#SSL #sound #audio #speech