А вот про это я уже пару лет рассказываю, но они сделали.
Audiovisual self-supervised representation learning
#SSL #audio #video
Audiovisual self-supervised representation learning
#SSL #audio #video
Meta
Audiovisual self-supervised representation learning
We’re sharing new research on using the natural association between video & sound to teach machines to better understand the world. Our self-supervised approach, which is a #CVPR21 best paper candidate, learns directly from sounds & images in videos.
Audio Captioning Transformer
Было бы круто обучить такую же модель, но для описания последовательностей/временных рядов. Например для графиков давления - типа «давление падает в виду движения циклона на северо-восток».
#waveforms #audio #captioning
Было бы круто обучить такую же модель, но для описания последовательностей/временных рядов. Например для графиков давления - типа «давление падает в виду движения циклона на северо-восток».
#waveforms #audio #captioning
SpeechBrain - классный репозиторий для всего связанного со звуком. Сам им пользовался пару раз.
#sound #speech #audio
#sound #speech #audio
Twitter
Philip Vollet
SpeechBrain an open-source and all-in-one speech toolkit based on PyTorch Develop state-of-the-art speech technologies, including systems for speech recognition, speaker recognition, speech enhancement, multi-microphone signal processing @SpeechBrain1 gi…
Датасет жужжания москитов. Видимо что бы по звуку можно было определять виды этих комаров.
#datasets #ScientificML #sound #audio
#datasets #ScientificML #sound #audio
Тэги доступные в канале на данный момент:
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные
SoundStream - an End-to-End Neural Audio Codec
Аудиокодеки используются для эффективного сжатия звука с целью снижения требований к хранению или пропускной способности сети.
SoundStream - это первый нейрокодек для работы с речью и музыкой, который может работать в режиме реального времени на процессоре смартфона. Он способен обеспечить современное качество в широком диапазоне битрейтов с помощью одной обученной модели, что представляет собой значительный прогресс в области обучаемых кодеков.
Блог-пост и сэмплы
Обещают скоро зарелизить код
#sound #signals #compression #audio #speech #music
Аудиокодеки используются для эффективного сжатия звука с целью снижения требований к хранению или пропускной способности сети.
SoundStream - это первый нейрокодек для работы с речью и музыкой, который может работать в режиме реального времени на процессоре смартфона. Он способен обеспечить современное качество в широком диапазоне битрейтов с помощью одной обученной модели, что представляет собой значительный прогресс в области обучаемых кодеков.
Блог-пост и сэмплы
Обещают скоро зарелизить код
#sound #signals #compression #audio #speech #music
W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training (Google Brain)
Мотивированные успехом масочного моделирования языка~(MLM) в предварительном обучении моделей обработки естественного языка, авторы предлагают w2v-BERT, который использует MLM для self-supervised learning speech representation. w2v-BERT - это модель, которая сочетает контрастивное обучение и MLM, где первое обучает модель дискретизировать непрерывные речевые сигналы на конечный набор дискриминирующих речевых лексем, а второе обучает модель обучению контекстуализированных представлений речи через решение задачи предсказания с маской, которой на вход подаются дискретизированные лексемы.
w2v-BERT может быть оптимизирована end-to-end. Эксперименты авторов показывают, что w2v-BERT достигает конкурентоспособных результатов по сравнению с текущими современными pretrained modes на эталонах LibriSpeech при использовании корпуса Libri-Light~60k в качестве данных для deg-supervised learning. В частности, по сравнению с опубликованными моделями, такими как wav2vec~2.0 и HuBERT, модель показывает от ~5% до ~10% относительного снижения WER на подмножествах test-clean и test-other. При применении к набору данных трафика голосового поиска Google, w2v-BERT превосходит нашу внутреннюю модель wav2vec~2.0 на основе конформера более чем на 30%.
ArXiv
#SSL #speech #audio
Мотивированные успехом масочного моделирования языка~(MLM) в предварительном обучении моделей обработки естественного языка, авторы предлагают w2v-BERT, который использует MLM для self-supervised learning speech representation. w2v-BERT - это модель, которая сочетает контрастивное обучение и MLM, где первое обучает модель дискретизировать непрерывные речевые сигналы на конечный набор дискриминирующих речевых лексем, а второе обучает модель обучению контекстуализированных представлений речи через решение задачи предсказания с маской, которой на вход подаются дискретизированные лексемы.
w2v-BERT может быть оптимизирована end-to-end. Эксперименты авторов показывают, что w2v-BERT достигает конкурентоспособных результатов по сравнению с текущими современными pretrained modes на эталонах LibriSpeech при использовании корпуса Libri-Light~60k в качестве данных для deg-supervised learning. В частности, по сравнению с опубликованными моделями, такими как wav2vec~2.0 и HuBERT, модель показывает от ~5% до ~10% относительного снижения WER на подмножествах test-clean и test-other. При применении к набору данных трафика голосового поиска Google, w2v-BERT превосходит нашу внутреннюю модель wav2vec~2.0 на основе конформера более чем на 30%.
ArXiv
#SSL #speech #audio
NeuralCompression (Facebook research)
NeuralCompression - это PyTorch репозиторий, посвященный исследованию нейронных сетей, сжимающих данные. Репозиторий включает такие инструменты, как энтропийные кодеры на основе JAX, модели сжатия изображений, модели сжатия видео, а также метрики для оценки изображений и видео.
#compression #audio #video #images
NeuralCompression - это PyTorch репозиторий, посвященный исследованию нейронных сетей, сжимающих данные. Репозиторий включает такие инструменты, как энтропийные кодеры на основе JAX, модели сжатия изображений, модели сжатия видео, а также метрики для оценки изображений и видео.
#compression #audio #video #images
GitHub
GitHub - facebookresearch/NeuralCompression: A collection of tools for neural compression enthusiasts.
A collection of tools for neural compression enthusiasts. - facebookresearch/NeuralCompression
Textless NLP: Generating expressive speech from raw audio
Facebook AI представили Generative Spoken Language Model (GSLM), первую высокопроизводительную модель NLP, которая освобождается от зависимости от текста. GSLM использует последние достижения в области representation learning, что позволяет ей работать непосредственно на основе только необработанных аудиосигналов, без каких-либо меток или текста. Это открывает дверь в новую эру безтекстовых приложений НЛП для потенциально любого языка, на котором говорят на Земле - даже тех, которые не имеют значительных наборов текстовых данных.
Модель работает примерно как BERT, но естественно со своими особенностями.
По сути, Facebook говорит - ASR устарел и работать теперь распознованием речи будет по принципу "из конца в конец", от речевого входа до речевого выхода. Они сравнивают свою систему с дошкольником, который увит язык исключительно на основе сенсорного опыта.
Блог-пост
Статья 1
Статья 2
Статья 3
Код
#audio #speech #SSL #nlp
Facebook AI представили Generative Spoken Language Model (GSLM), первую высокопроизводительную модель NLP, которая освобождается от зависимости от текста. GSLM использует последние достижения в области representation learning, что позволяет ей работать непосредственно на основе только необработанных аудиосигналов, без каких-либо меток или текста. Это открывает дверь в новую эру безтекстовых приложений НЛП для потенциально любого языка, на котором говорят на Земле - даже тех, которые не имеют значительных наборов текстовых данных.
Модель работает примерно как BERT, но естественно со своими особенностями.
По сути, Facebook говорит - ASR устарел и работать теперь распознованием речи будет по принципу "из конца в конец", от речевого входа до речевого выхода. Они сравнивают свою систему с дошкольником, который увит язык исключительно на основе сенсорного опыта.
Блог-пост
Статья 1
Статья 2
Статья 3
Код
#audio #speech #SSL #nlp