WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing (Microsoft)
Self-supervised learning (SSL) уже достигло больших успехов в распознавании речи. При этом в для других задач обработки речи были предприняты лишь ограниченные попытки. Поскольку речевой сигнал содержит многогранную информацию, включая личность диктора, паралингвистику, содержание речи и т.д., обучение универсальным представлениям для всех речевых задач является сложной задачей.
В этой статье авторы предлагают новую модель WavLM для решения речевых задач полного стека. WavLM построена на основе архитектуры HuBERT с акцентом на моделирование речевого контента и сохранение идентичности диктора.
📎 Статья
🖥 Код
#SSL #signals #speech #audio
Self-supervised learning (SSL) уже достигло больших успехов в распознавании речи. При этом в для других задач обработки речи были предприняты лишь ограниченные попытки. Поскольку речевой сигнал содержит многогранную информацию, включая личность диктора, паралингвистику, содержание речи и т.д., обучение универсальным представлениям для всех речевых задач является сложной задачей.
В этой статье авторы предлагают новую модель WavLM для решения речевых задач полного стека. WavLM построена на основе архитектуры HuBERT с акцентом на моделирование речевого контента и сохранение идентичности диктора.
📎 Статья
🖥 Код
#SSL #signals #speech #audio
Masked Autoencoders Are Scalable Vision Learners
Ещё одна идея, которая казалось бы была на поверхности, and yet… Берём картиночный автоэнкодер, делим картинку на патчи, прячем их в случайном порядке, и просим декодер восстановить изображение (в режиме self-supervised).
Авторы (Facebook/Meta AI), обнаружили, что скрытие большой части входного изображения, например, 75%, дает нетривиальную и осмысленную задачу для self-supervised обучения. Оказалось, что в такой формулировке, автоэнкодер обучается в ~3 раза быстрее (чем если бы мы учили на изображениях без масок).
Более того, оказалось, что если к такому обученному автоэнкодеру прикрутить голову на классификацию (например), то она будет показывать SOTA результаты. Так же, авторы показывают, что при масштабировании датасета, результаты только улучшаются.
📎 Статья
🖥 Код (не официальный)
#SSL #autoencoders #images
Ещё одна идея, которая казалось бы была на поверхности, and yet… Берём картиночный автоэнкодер, делим картинку на патчи, прячем их в случайном порядке, и просим декодер восстановить изображение (в режиме self-supervised).
Авторы (Facebook/Meta AI), обнаружили, что скрытие большой части входного изображения, например, 75%, дает нетривиальную и осмысленную задачу для self-supervised обучения. Оказалось, что в такой формулировке, автоэнкодер обучается в ~3 раза быстрее (чем если бы мы учили на изображениях без масок).
Более того, оказалось, что если к такому обученному автоэнкодеру прикрутить голову на классификацию (например), то она будет показывать SOTA результаты. Так же, авторы показывают, что при масштабировании датасета, результаты только улучшаются.
📎 Статья
🖥 Код (не официальный)
#SSL #autoencoders #images
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale
XLS-R - модель для обучения межъязыковым репрезентациям устной речи, основанная на wav2vec 2.0. Авторы из MetaAI (Facebook) обучили модель с
2B параметров на почти полумиллионе часов общедоступных аудиозаписей речи на 128 языках.
По аналогии с задачей моделирования языка по маске в BERT, XLS-R обучается контекстуализированным представлениям речи путем случайной маскировки векторов признаков перед передачей их в self-supervised transformer (т.е. диаграмма слева внизу).
XLS-R демонстрирует впечатляющие улучшения по сравнению с предыдущими SOTA в распознавании речи, переводе речи и идентификации диктора/языка.
📎 Статья
🔭 Блог-пост
🖥 Код
🤗 Демо
#SSL #sound #audio #speech
XLS-R - модель для обучения межъязыковым репрезентациям устной речи, основанная на wav2vec 2.0. Авторы из MetaAI (Facebook) обучили модель с
2B параметров на почти полумиллионе часов общедоступных аудиозаписей речи на 128 языках.
По аналогии с задачей моделирования языка по маске в BERT, XLS-R обучается контекстуализированным представлениям речи путем случайной маскировки векторов признаков перед передачей их в self-supervised transformer (т.е. диаграмма слева внизу).
XLS-R демонстрирует впечатляющие улучшения по сравнению с предыдущими SOTA в распознавании речи, переводе речи и идентификации диктора/языка.
📎 Статья
🔭 Блог-пост
🖥 Код
🤗 Демо
#SSL #sound #audio #speech
DABS - The Domain Agnostic Benchmark for Self-Supervised Learning.
Можно ли использовать self-supervised обучение (SSL) с любыми данными? DABS - это бенчмарк методов SSL в семи различных областях, включая рентгеновские снимки грудной клетки, носимые датчики и мультиязычный текст.
Модели обучаются на не размеченном наборе данных в каждой области, а затем оценивают на последующих задачах в той же области.
Методы SSL, которые хорошо работают на DABS, могут быть особенно полезны для научных, медицинских, мультимодальных и других реальных задач, где не хватает меток или их дорого собирать.
📎 Статья
🖥 Код
📈 Бенчмарк
🌎 Красивый сайт
#SSL #ScientificML
Можно ли использовать self-supervised обучение (SSL) с любыми данными? DABS - это бенчмарк методов SSL в семи различных областях, включая рентгеновские снимки грудной клетки, носимые датчики и мультиязычный текст.
Модели обучаются на не размеченном наборе данных в каждой области, а затем оценивают на последующих задачах в той же области.
Методы SSL, которые хорошо работают на DABS, могут быть особенно полезны для научных, медицинских, мультимодальных и других реальных задач, где не хватает меток или их дорого собирать.
📎 Статья
🖥 Код
📈 Бенчмарк
🌎 Красивый сайт
#SSL #ScientificML
Эффективное обучение визуальных трансформеров на небольших наборах данных
Визуальные трансформеры (ViT) уже почти сравнялись по популярности со сверточными сетями (CNN). Однако, ViT требуется намного больше данных, чем CNN.
В статье анализируются различные ViT, сравнивается их устойчивость в режиме малого набора данных для обучения, и демонстрируется, что, несмотря на сопоставимую точность при обучении на ImageNet, их производительность на меньших наборах данных может значительно отличаться.
Авторы предлагают self-supervised задачу, которая может извлекать дополнительную информацию из изображений с незначительными вычислительными затратами. Эта задача побуждает ViT изучать пространственные отношения внутри изображения и делает обучение ViT гораздо более надежным в условиях нехватки обучающих данных. Задача используется совместно с supervised обучением и не зависит от конкретных архитектурных решений. Этот метод помогает улучшить конечную точность ViT.
📎 Статья
🖥 Код
#transformer #SSL #images
Визуальные трансформеры (ViT) уже почти сравнялись по популярности со сверточными сетями (CNN). Однако, ViT требуется намного больше данных, чем CNN.
В статье анализируются различные ViT, сравнивается их устойчивость в режиме малого набора данных для обучения, и демонстрируется, что, несмотря на сопоставимую точность при обучении на ImageNet, их производительность на меньших наборах данных может значительно отличаться.
Авторы предлагают self-supervised задачу, которая может извлекать дополнительную информацию из изображений с незначительными вычислительными затратами. Эта задача побуждает ViT изучать пространственные отношения внутри изображения и делает обучение ViT гораздо более надежным в условиях нехватки обучающих данных. Задача используется совместно с supervised обучением и не зависит от конкретных архитектурных решений. Этот метод помогает улучшить конечную точность ViT.
📎 Статья
🖥 Код
#transformer #SSL #images
Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency
Предварительное обучение на временных рядах (например график температуры, цена акций и тп) представляет собой сложную проблему из-за потенциального несоответствия между тренировочными и тестовыми данными (например сдвиги во временной динамике, циклические эффекты и тп).
По сравнению с другими модальностями, во временных рядах мы ожидаем, что временные и частотные представления одного и того же примера расположены близко друг к другу во временно-частотном пространстве. Это значит что мы можем посчитать эмбеддинг сигнала во временном домене и его же эмбединг в частотном. Если наша сеть обучена правильно, то эти эмбединги (их косинусное расстояние) будут располагаться близко друг другу.
📖 Статья
🤖 Код
#signalprocessing #SSL
Предварительное обучение на временных рядах (например график температуры, цена акций и тп) представляет собой сложную проблему из-за потенциального несоответствия между тренировочными и тестовыми данными (например сдвиги во временной динамике, циклические эффекты и тп).
По сравнению с другими модальностями, во временных рядах мы ожидаем, что временные и частотные представления одного и того же примера расположены близко друг к другу во временно-частотном пространстве. Это значит что мы можем посчитать эмбеддинг сигнала во временном домене и его же эмбединг в частотном. Если наша сеть обучена правильно, то эти эмбединги (их косинусное расстояние) будут располагаться близко друг другу.
📖 Статья
🤖 Код
#signalprocessing #SSL
What Do We Maximize in Self-Supervised Learning?
Вышла статья за авторством в том числе Лекуна, в которой рассуждают о том что такое self-supervised learning (#SSL) и почему оно работает.
В статье рассматриваются методы SSL обучения, в частности VICReg. Делают следующее:
1. Демонстрируют, как SSL можно сделать для детерминированной сети, предлагая возможную альтернативу предыдущим работам, которые полагаются на стохастические модели.
2. Это позволяет авторам нам продемонстрировать, как VICReg может быть (пере)обнаружен из первых принципов и его предположений о распределении данных.
3. Эмпирически демонстрируют обоснованность своих предположений, подтверждая понимание VICReg.
4. Постулируют что их метод может быть обобщен на многие другие методы SSL, открывая новые пути для теоретического и практического понимания SSL и transfer learning.
Другое дело, что пусть сначала продемонстрируют, а там и поговорим :)
Статья
(1) Изображение сгенерировано проектом Simulacra
(2) За наводку спасибо @j_links
Вышла статья за авторством в том числе Лекуна, в которой рассуждают о том что такое self-supervised learning (#SSL) и почему оно работает.
В статье рассматриваются методы SSL обучения, в частности VICReg. Делают следующее:
1. Демонстрируют, как SSL можно сделать для детерминированной сети, предлагая возможную альтернативу предыдущим работам, которые полагаются на стохастические модели.
2. Это позволяет авторам нам продемонстрировать, как VICReg может быть (пере)обнаружен из первых принципов и его предположений о распределении данных.
3. Эмпирически демонстрируют обоснованность своих предположений, подтверждая понимание VICReg.
4. Постулируют что их метод может быть обобщен на многие другие методы SSL, открывая новые пути для теоретического и практического понимания SSL и transfer learning.
Другое дело, что пусть сначала продемонстрируют, а там и поговорим :)
Статья
(1) Изображение сгенерировано проектом Simulacra
(2) За наводку спасибо @j_links
Awesome self-supervised learning
С увеличением количества немаркированных данных в Интернете, появляется множество преимуществ в разработке методов, которые позволяют нам использовать немаркированные данные. Self-supervised learning (#SSL) - один из таких методов.
Нашёл хороший репозиторий, в котором собраны статьи, блоги и доклады по SSL.
С увеличением количества немаркированных данных в Интернете, появляется множество преимуществ в разработке методов, которые позволяют нам использовать немаркированные данные. Self-supervised learning (#SSL) - один из таких методов.
Нашёл хороший репозиторий, в котором собраны статьи, блоги и доклады по SSL.
GitHub
GitHub - jason718/awesome-self-supervised-learning: A curated list of awesome self-supervised methods
A curated list of awesome self-supervised methods. Contribute to jason718/awesome-self-supervised-learning development by creating an account on GitHub.
Object Discovery and representatIon Networks (ODIN)
Self-supervised learning (все ещё не придумали хороший перевод #SSL) может выдавать хорошие описания целых сцен, но не позволяет выделить отдельные объекты. Это изменилось с выходом Odin от DeepMind.
Odin - это новый метод, который одновременно обнаруживает объекты и учится их представлять без какого-либо контроля.
Odin изучает признаки на уровне объектов с помощью контрастной цели и приблизительных масок изображений. Он обнаруживает объекты путем кластеризации этих признаков и передает полученные маски обратно в цель обучения, участвуя в непрерывном цикле представления и качества сегментации.
Наконец, Odin не требует никаких предварительных знаний о структуре объектов в реальных сценах.
📖 Статья
Self-supervised learning (все ещё не придумали хороший перевод #SSL) может выдавать хорошие описания целых сцен, но не позволяет выделить отдельные объекты. Это изменилось с выходом Odin от DeepMind.
Odin - это новый метод, который одновременно обнаруживает объекты и учится их представлять без какого-либо контроля.
Odin изучает признаки на уровне объектов с помощью контрастной цели и приблизительных масок изображений. Он обнаруживает объекты путем кластеризации этих признаков и передает полученные маски обратно в цель обучения, участвуя в непрерывном цикле представления и качества сегментации.
Наконец, Odin не требует никаких предварительных знаний о структуре объектов в реальных сценах.
📖 Статья