CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
За 2021 год, мы увидели множество прорывов в области self-supervised learning (это когда человек вообще не размечал данные). Одним из таких прорывов был CLIP, который умеет соотносить между собой текст и картинки (предвестник безумного ML-арта).
У CLIP есть проблема - иногда он «срезает» углы и предсказывает что-то, на основании ложных признаков (как в истории про умную лошадь по имени Ганс, которая «умела» в математику). Эту проблему можно решить с помощью сетей Хопфилда, которые служат в качестве ассоциативной системы памяти.
Что подводит нас собственно к CLOOB (Contrastive Leave One Out Boost)- новому методу self-supervised обучения, в котором сети Хопфилда повышают эффективность обучения. CLOOB преодолевает проблему срезания «углов», характерную для CLIP с помощью замены признаков входной картинки/текста на признаки, которые извлекаются из сети Хопфилда.
🔭 Блог-пост
📎 Статья
🖥 Код
#multimodal #text #image #hopfield #SSL
За 2021 год, мы увидели множество прорывов в области self-supervised learning (это когда человек вообще не размечал данные). Одним из таких прорывов был CLIP, который умеет соотносить между собой текст и картинки (предвестник безумного ML-арта).
У CLIP есть проблема - иногда он «срезает» углы и предсказывает что-то, на основании ложных признаков (как в истории про умную лошадь по имени Ганс, которая «умела» в математику). Эту проблему можно решить с помощью сетей Хопфилда, которые служат в качестве ассоциативной системы памяти.
Что подводит нас собственно к CLOOB (Contrastive Leave One Out Boost)- новому методу self-supervised обучения, в котором сети Хопфилда повышают эффективность обучения. CLOOB преодолевает проблему срезания «углов», характерную для CLIP с помощью замены признаков входной картинки/текста на признаки, которые извлекаются из сети Хопфилда.
🔭 Блог-пост
📎 Статья
🖥 Код
#multimodal #text #image #hopfield #SSL
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing (Microsoft)
Self-supervised learning (SSL) уже достигло больших успехов в распознавании речи. При этом в для других задач обработки речи были предприняты лишь ограниченные попытки. Поскольку речевой сигнал содержит многогранную информацию, включая личность диктора, паралингвистику, содержание речи и т.д., обучение универсальным представлениям для всех речевых задач является сложной задачей.
В этой статье авторы предлагают новую модель WavLM для решения речевых задач полного стека. WavLM построена на основе архитектуры HuBERT с акцентом на моделирование речевого контента и сохранение идентичности диктора.
📎 Статья
🖥 Код
#SSL #signals #speech #audio
Self-supervised learning (SSL) уже достигло больших успехов в распознавании речи. При этом в для других задач обработки речи были предприняты лишь ограниченные попытки. Поскольку речевой сигнал содержит многогранную информацию, включая личность диктора, паралингвистику, содержание речи и т.д., обучение универсальным представлениям для всех речевых задач является сложной задачей.
В этой статье авторы предлагают новую модель WavLM для решения речевых задач полного стека. WavLM построена на основе архитектуры HuBERT с акцентом на моделирование речевого контента и сохранение идентичности диктора.
📎 Статья
🖥 Код
#SSL #signals #speech #audio
Masked Autoencoders Are Scalable Vision Learners
Ещё одна идея, которая казалось бы была на поверхности, and yet… Берём картиночный автоэнкодер, делим картинку на патчи, прячем их в случайном порядке, и просим декодер восстановить изображение (в режиме self-supervised).
Авторы (Facebook/Meta AI), обнаружили, что скрытие большой части входного изображения, например, 75%, дает нетривиальную и осмысленную задачу для self-supervised обучения. Оказалось, что в такой формулировке, автоэнкодер обучается в ~3 раза быстрее (чем если бы мы учили на изображениях без масок).
Более того, оказалось, что если к такому обученному автоэнкодеру прикрутить голову на классификацию (например), то она будет показывать SOTA результаты. Так же, авторы показывают, что при масштабировании датасета, результаты только улучшаются.
📎 Статья
🖥 Код (не официальный)
#SSL #autoencoders #images
Ещё одна идея, которая казалось бы была на поверхности, and yet… Берём картиночный автоэнкодер, делим картинку на патчи, прячем их в случайном порядке, и просим декодер восстановить изображение (в режиме self-supervised).
Авторы (Facebook/Meta AI), обнаружили, что скрытие большой части входного изображения, например, 75%, дает нетривиальную и осмысленную задачу для self-supervised обучения. Оказалось, что в такой формулировке, автоэнкодер обучается в ~3 раза быстрее (чем если бы мы учили на изображениях без масок).
Более того, оказалось, что если к такому обученному автоэнкодеру прикрутить голову на классификацию (например), то она будет показывать SOTA результаты. Так же, авторы показывают, что при масштабировании датасета, результаты только улучшаются.
📎 Статья
🖥 Код (не официальный)
#SSL #autoencoders #images
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale
XLS-R - модель для обучения межъязыковым репрезентациям устной речи, основанная на wav2vec 2.0. Авторы из MetaAI (Facebook) обучили модель с
2B параметров на почти полумиллионе часов общедоступных аудиозаписей речи на 128 языках.
По аналогии с задачей моделирования языка по маске в BERT, XLS-R обучается контекстуализированным представлениям речи путем случайной маскировки векторов признаков перед передачей их в self-supervised transformer (т.е. диаграмма слева внизу).
XLS-R демонстрирует впечатляющие улучшения по сравнению с предыдущими SOTA в распознавании речи, переводе речи и идентификации диктора/языка.
📎 Статья
🔭 Блог-пост
🖥 Код
🤗 Демо
#SSL #sound #audio #speech
XLS-R - модель для обучения межъязыковым репрезентациям устной речи, основанная на wav2vec 2.0. Авторы из MetaAI (Facebook) обучили модель с
2B параметров на почти полумиллионе часов общедоступных аудиозаписей речи на 128 языках.
По аналогии с задачей моделирования языка по маске в BERT, XLS-R обучается контекстуализированным представлениям речи путем случайной маскировки векторов признаков перед передачей их в self-supervised transformer (т.е. диаграмма слева внизу).
XLS-R демонстрирует впечатляющие улучшения по сравнению с предыдущими SOTA в распознавании речи, переводе речи и идентификации диктора/языка.
📎 Статья
🔭 Блог-пост
🖥 Код
🤗 Демо
#SSL #sound #audio #speech
DABS - The Domain Agnostic Benchmark for Self-Supervised Learning.
Можно ли использовать self-supervised обучение (SSL) с любыми данными? DABS - это бенчмарк методов SSL в семи различных областях, включая рентгеновские снимки грудной клетки, носимые датчики и мультиязычный текст.
Модели обучаются на не размеченном наборе данных в каждой области, а затем оценивают на последующих задачах в той же области.
Методы SSL, которые хорошо работают на DABS, могут быть особенно полезны для научных, медицинских, мультимодальных и других реальных задач, где не хватает меток или их дорого собирать.
📎 Статья
🖥 Код
📈 Бенчмарк
🌎 Красивый сайт
#SSL #ScientificML
Можно ли использовать self-supervised обучение (SSL) с любыми данными? DABS - это бенчмарк методов SSL в семи различных областях, включая рентгеновские снимки грудной клетки, носимые датчики и мультиязычный текст.
Модели обучаются на не размеченном наборе данных в каждой области, а затем оценивают на последующих задачах в той же области.
Методы SSL, которые хорошо работают на DABS, могут быть особенно полезны для научных, медицинских, мультимодальных и других реальных задач, где не хватает меток или их дорого собирать.
📎 Статья
🖥 Код
📈 Бенчмарк
🌎 Красивый сайт
#SSL #ScientificML
Эффективное обучение визуальных трансформеров на небольших наборах данных
Визуальные трансформеры (ViT) уже почти сравнялись по популярности со сверточными сетями (CNN). Однако, ViT требуется намного больше данных, чем CNN.
В статье анализируются различные ViT, сравнивается их устойчивость в режиме малого набора данных для обучения, и демонстрируется, что, несмотря на сопоставимую точность при обучении на ImageNet, их производительность на меньших наборах данных может значительно отличаться.
Авторы предлагают self-supervised задачу, которая может извлекать дополнительную информацию из изображений с незначительными вычислительными затратами. Эта задача побуждает ViT изучать пространственные отношения внутри изображения и делает обучение ViT гораздо более надежным в условиях нехватки обучающих данных. Задача используется совместно с supervised обучением и не зависит от конкретных архитектурных решений. Этот метод помогает улучшить конечную точность ViT.
📎 Статья
🖥 Код
#transformer #SSL #images
Визуальные трансформеры (ViT) уже почти сравнялись по популярности со сверточными сетями (CNN). Однако, ViT требуется намного больше данных, чем CNN.
В статье анализируются различные ViT, сравнивается их устойчивость в режиме малого набора данных для обучения, и демонстрируется, что, несмотря на сопоставимую точность при обучении на ImageNet, их производительность на меньших наборах данных может значительно отличаться.
Авторы предлагают self-supervised задачу, которая может извлекать дополнительную информацию из изображений с незначительными вычислительными затратами. Эта задача побуждает ViT изучать пространственные отношения внутри изображения и делает обучение ViT гораздо более надежным в условиях нехватки обучающих данных. Задача используется совместно с supervised обучением и не зависит от конкретных архитектурных решений. Этот метод помогает улучшить конечную точность ViT.
📎 Статья
🖥 Код
#transformer #SSL #images
Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency
Предварительное обучение на временных рядах (например график температуры, цена акций и тп) представляет собой сложную проблему из-за потенциального несоответствия между тренировочными и тестовыми данными (например сдвиги во временной динамике, циклические эффекты и тп).
По сравнению с другими модальностями, во временных рядах мы ожидаем, что временные и частотные представления одного и того же примера расположены близко друг к другу во временно-частотном пространстве. Это значит что мы можем посчитать эмбеддинг сигнала во временном домене и его же эмбединг в частотном. Если наша сеть обучена правильно, то эти эмбединги (их косинусное расстояние) будут располагаться близко друг другу.
📖 Статья
🤖 Код
#signalprocessing #SSL
Предварительное обучение на временных рядах (например график температуры, цена акций и тп) представляет собой сложную проблему из-за потенциального несоответствия между тренировочными и тестовыми данными (например сдвиги во временной динамике, циклические эффекты и тп).
По сравнению с другими модальностями, во временных рядах мы ожидаем, что временные и частотные представления одного и того же примера расположены близко друг к другу во временно-частотном пространстве. Это значит что мы можем посчитать эмбеддинг сигнала во временном домене и его же эмбединг в частотном. Если наша сеть обучена правильно, то эти эмбединги (их косинусное расстояние) будут располагаться близко друг другу.
📖 Статья
🤖 Код
#signalprocessing #SSL
What Do We Maximize in Self-Supervised Learning?
Вышла статья за авторством в том числе Лекуна, в которой рассуждают о том что такое self-supervised learning (#SSL) и почему оно работает.
В статье рассматриваются методы SSL обучения, в частности VICReg. Делают следующее:
1. Демонстрируют, как SSL можно сделать для детерминированной сети, предлагая возможную альтернативу предыдущим работам, которые полагаются на стохастические модели.
2. Это позволяет авторам нам продемонстрировать, как VICReg может быть (пере)обнаружен из первых принципов и его предположений о распределении данных.
3. Эмпирически демонстрируют обоснованность своих предположений, подтверждая понимание VICReg.
4. Постулируют что их метод может быть обобщен на многие другие методы SSL, открывая новые пути для теоретического и практического понимания SSL и transfer learning.
Другое дело, что пусть сначала продемонстрируют, а там и поговорим :)
Статья
(1) Изображение сгенерировано проектом Simulacra
(2) За наводку спасибо @j_links
Вышла статья за авторством в том числе Лекуна, в которой рассуждают о том что такое self-supervised learning (#SSL) и почему оно работает.
В статье рассматриваются методы SSL обучения, в частности VICReg. Делают следующее:
1. Демонстрируют, как SSL можно сделать для детерминированной сети, предлагая возможную альтернативу предыдущим работам, которые полагаются на стохастические модели.
2. Это позволяет авторам нам продемонстрировать, как VICReg может быть (пере)обнаружен из первых принципов и его предположений о распределении данных.
3. Эмпирически демонстрируют обоснованность своих предположений, подтверждая понимание VICReg.
4. Постулируют что их метод может быть обобщен на многие другие методы SSL, открывая новые пути для теоретического и практического понимания SSL и transfer learning.
Другое дело, что пусть сначала продемонстрируют, а там и поговорим :)
Статья
(1) Изображение сгенерировано проектом Simulacra
(2) За наводку спасибо @j_links
Awesome self-supervised learning
С увеличением количества немаркированных данных в Интернете, появляется множество преимуществ в разработке методов, которые позволяют нам использовать немаркированные данные. Self-supervised learning (#SSL) - один из таких методов.
Нашёл хороший репозиторий, в котором собраны статьи, блоги и доклады по SSL.
С увеличением количества немаркированных данных в Интернете, появляется множество преимуществ в разработке методов, которые позволяют нам использовать немаркированные данные. Self-supervised learning (#SSL) - один из таких методов.
Нашёл хороший репозиторий, в котором собраны статьи, блоги и доклады по SSL.
GitHub
GitHub - jason718/awesome-self-supervised-learning: A curated list of awesome self-supervised methods
A curated list of awesome self-supervised methods. Contribute to jason718/awesome-self-supervised-learning development by creating an account on GitHub.
Object Discovery and representatIon Networks (ODIN)
Self-supervised learning (все ещё не придумали хороший перевод #SSL) может выдавать хорошие описания целых сцен, но не позволяет выделить отдельные объекты. Это изменилось с выходом Odin от DeepMind.
Odin - это новый метод, который одновременно обнаруживает объекты и учится их представлять без какого-либо контроля.
Odin изучает признаки на уровне объектов с помощью контрастной цели и приблизительных масок изображений. Он обнаруживает объекты путем кластеризации этих признаков и передает полученные маски обратно в цель обучения, участвуя в непрерывном цикле представления и качества сегментации.
Наконец, Odin не требует никаких предварительных знаний о структуре объектов в реальных сценах.
📖 Статья
Self-supervised learning (все ещё не придумали хороший перевод #SSL) может выдавать хорошие описания целых сцен, но не позволяет выделить отдельные объекты. Это изменилось с выходом Odin от DeepMind.
Odin - это новый метод, который одновременно обнаруживает объекты и учится их представлять без какого-либо контроля.
Odin изучает признаки на уровне объектов с помощью контрастной цели и приблизительных масок изображений. Он обнаруживает объекты путем кластеризации этих признаков и передает полученные маски обратно в цель обучения, участвуя в непрерывном цикле представления и качества сегментации.
Наконец, Odin не требует никаких предварительных знаний о структуре объектов в реальных сценах.
📖 Статья
Самообучающийся искусственный интеллект демонстрирует сходство с работой мозга
Животные - в том числе и люди - не используют наборы маркированных данных для обучения. По большей части они самостоятельно исследуют окружающую среду и при этом получают богатое и глубокое понимание мира.
Некоторые специалисты по вычислительной неврологии начали изучать нейронные сети, которые были обучены на небольшом количестве данных, помеченных человеком, или вообще без них. Эти алгоритмы self-supervised (#SSL) оказались чрезвычайно успешными для моделирования человеческого языка и, совсем недавно, распознавания образов. В последних работах вычислительные модели зрительной и слуховой систем млекопитающих, построенные с использованием моделей SSL, показали более близкое соответствие функциям мозга, чем их аналоги с контролируемым обучением.
Некоторые нейробиологи считают, что искусственные сети начинают раскрывать некоторые из реальных методов, используемых нашим мозгом для обучения.
Подробнее
Животные - в том числе и люди - не используют наборы маркированных данных для обучения. По большей части они самостоятельно исследуют окружающую среду и при этом получают богатое и глубокое понимание мира.
Некоторые специалисты по вычислительной неврологии начали изучать нейронные сети, которые были обучены на небольшом количестве данных, помеченных человеком, или вообще без них. Эти алгоритмы self-supervised (#SSL) оказались чрезвычайно успешными для моделирования человеческого языка и, совсем недавно, распознавания образов. В последних работах вычислительные модели зрительной и слуховой систем млекопитающих, построенные с использованием моделей SSL, показали более близкое соответствие функциям мозга, чем их аналоги с контролируемым обучением.
Некоторые нейробиологи считают, что искусственные сети начинают раскрывать некоторые из реальных методов, используемых нашим мозгом для обучения.
Подробнее
This media is not supported in your browser
VIEW IN TELEGRAM
Использование искусственного интеллекта для декодирования речи из активности мозга
В Meta разработали модель ИИ, которая может декодировать речь на основе неинвазивных записей активности мозга.
На основе трех секунд мозговой активности модель может декодировать соответствующие сегменты речи с точностью до 73% от верхнего предела из словарного запаса в 793 слова, т.е. большую часть слов, которые люди обычно используют в повседневной жизни.
В качестве модели используют wav2vec2, в качестве данных ЭЭГ и МЭГ (более 150 часов записей 169 здоровых добровольцев, слушавших аудиокниги и изолированные предложения на английском и голландском языках).
Результаты исследования показывают, что self-supervised learning (#SSL) может успешно декодировать воспринимаемую речь на основе неинвазивных записей активности мозга, несмотря на шум и изменчивость, присущие этим данным.
📇 блог-пост
📖 статья
В Meta разработали модель ИИ, которая может декодировать речь на основе неинвазивных записей активности мозга.
На основе трех секунд мозговой активности модель может декодировать соответствующие сегменты речи с точностью до 73% от верхнего предела из словарного запаса в 793 слова, т.е. большую часть слов, которые люди обычно используют в повседневной жизни.
В качестве модели используют wav2vec2, в качестве данных ЭЭГ и МЭГ (более 150 часов записей 169 здоровых добровольцев, слушавших аудиокниги и изолированные предложения на английском и голландском языках).
Результаты исследования показывают, что self-supervised learning (#SSL) может успешно декодировать воспринимаемую речь на основе неинвазивных записей активности мозга, несмотря на шум и изменчивость, присущие этим данным.
📇 блог-пост
📖 статья
Media is too big
VIEW IN TELEGRAM
Multi-layered Mapping of Brain Tissue via Segmentation Guided Contrastive Learning
В прошлом году в Google оцифровали 1 мм³ ткани коры головного мозга получив 3d карту высокого разрешения объемом 1,4 Пбайт. Для подробного изучения такой карты сначала нужно идентифицировать типы клеток и их синаптические связи, но разметить такое количество данных вручную невозможно (привет).
Для решение проблемы авторы предложили новую сеть SegCLR (модификация SimCLR). Она способна различать элементы меньше 10 µm с высокой точностью, тогда как эксперты уже не справляются.
Благодаря self-supervised (#SSL) подходу авторам удалось извлечь 8 млрд эмбеддингов без ручной аннотации. Далее, они были сгруппированы в кластеры и используя лишь небольшое количество размеченных данных, кластерам был присвоен лейбл. Кроме того, сеть понижает размерность данных до 64-мерных векторов, что облегчает обучение моделей для downstream задач.
Таким образом был получен размеченный датасет, который был вложен в открытый доступ.
🔬Блог
📖Статья
@karray
В прошлом году в Google оцифровали 1 мм³ ткани коры головного мозга получив 3d карту высокого разрешения объемом 1,4 Пбайт. Для подробного изучения такой карты сначала нужно идентифицировать типы клеток и их синаптические связи, но разметить такое количество данных вручную невозможно (привет).
Для решение проблемы авторы предложили новую сеть SegCLR (модификация SimCLR). Она способна различать элементы меньше 10 µm с высокой точностью, тогда как эксперты уже не справляются.
Благодаря self-supervised (#SSL) подходу авторам удалось извлечь 8 млрд эмбеддингов без ручной аннотации. Далее, они были сгруппированы в кластеры и используя лишь небольшое количество размеченных данных, кластерам был присвоен лейбл. Кроме того, сеть понижает размерность данных до 64-мерных векторов, что облегчает обучение моделей для downstream задач.
Таким образом был получен размеченный датасет, который был вложен в открытый доступ.
🔬Блог
📖Статья
@karray
Self-Supervised Learning based on Heat Equation
Авторы обратили внимание на то, что карты активации классов полученные из global average pooling сверточных сетей похожи на физическое рассеивание тепла. Вдохновившись теплопередачей из физики они адаптировали уравнение теплопроводности и использовали его вместо лейблов, что позволило перевести задачу из supervised в self-supervised learning (#SSL).
На этапе обучения pretext-задачи, изображение делят на 4 патча, один из которых подается на вход модели, а остальные 3 предсказываются ей. Таким образом модель учит латентное представление.
Авторы утверждают, что их подход применим как для классификации изображений, так и для обнаружения объектов. Код обещают позже.
📖 Статья
@karray
Авторы обратили внимание на то, что карты активации классов полученные из global average pooling сверточных сетей похожи на физическое рассеивание тепла. Вдохновившись теплопередачей из физики они адаптировали уравнение теплопроводности и использовали его вместо лейблов, что позволило перевести задачу из supervised в self-supervised learning (#SSL).
На этапе обучения pretext-задачи, изображение делят на 4 патча, один из которых подается на вход модели, а остальные 3 предсказываются ей. Таким образом модель учит латентное представление.
Авторы утверждают, что их подход применим как для классификации изображений, так и для обнаружения объектов. Код обещают позже.
📖 Статья
@karray
This media is not supported in your browser
VIEW IN TELEGRAM
DINOv2: Learning Robust Visual Features without Supervision
Авторы из Meta AI решили провести ревизию и масштабировать существующие подходы self-supervised learning (#SSL) для извлечения скрытых признаков из изображений (pre-text task).
DINOv2 - комбинация идей из DINO, iBOT и SwAV. Авторы показали, что увеличивая количество параметров растёт и производительность. Их модель на 1.1B параметров обошла weakly-supervised методы в 8 из 10 бенчмарках на downstream задачах сегментации и построении карт глубины (код и веса уже доступны).
Для увеличения количества параметров моделей требуется больше данных, и SSL идеален в этом смысле, поскольку не требует наличия ручной разметки. Но эффективность обучения напрямую зависит от качества данных. Для решения этой проблемы авторы предложили новый подход сбора изображений из непроверенных источников используя курируемые наборы данных (такие, как ImageNet).
Они предложили пайплайн состоящий из нескольких техник фильтрации изображений из непроверенных источников. Например, они используют существующие SSL модели для извлечения эмбеддингов из изображений для последующей кластеризации. Используя эмбеддинги из курируемых наборов данных, они размечают кластеры и сортируют похожие изображения. Таким образом им удалось создать большой и сбалансированный набор данных высокого качества.
Статья | Код | Демо
@karray
Авторы из Meta AI решили провести ревизию и масштабировать существующие подходы self-supervised learning (#SSL) для извлечения скрытых признаков из изображений (pre-text task).
DINOv2 - комбинация идей из DINO, iBOT и SwAV. Авторы показали, что увеличивая количество параметров растёт и производительность. Их модель на 1.1B параметров обошла weakly-supervised методы в 8 из 10 бенчмарках на downstream задачах сегментации и построении карт глубины (код и веса уже доступны).
Для увеличения количества параметров моделей требуется больше данных, и SSL идеален в этом смысле, поскольку не требует наличия ручной разметки. Но эффективность обучения напрямую зависит от качества данных. Для решения этой проблемы авторы предложили новый подход сбора изображений из непроверенных источников используя курируемые наборы данных (такие, как ImageNet).
Они предложили пайплайн состоящий из нескольких техник фильтрации изображений из непроверенных источников. Например, они используют существующие SSL модели для извлечения эмбеддингов из изображений для последующей кластеризации. Используя эмбеддинги из курируемых наборов данных, они размечают кластеры и сортируют похожие изображения. Таким образом им удалось создать большой и сбалансированный набор данных высокого качества.
Статья | Код | Демо
@karray
Поваренная книга Self-supervised Learning (#SSL) от Meta.
Meta выпустили новую "Поваренную книгу самоконтролируемого обучения" - практическое руководство для исследователей и практиков ИИ о том, как сориентироваться в рецептах SSL (self-supervised learning), понять его различные “ручки и рычаги” и получить ноу-хау, необходимые для экспериментов с SSL.
Self-supervised learning (SSL), которое называют "темной материей интеллекта", является ключевым ингредиентом недавних прорывов в области ИИ.
Оно расширило границы глубокого обучения во многих областях, позволяя обучаться на огромных объемах немаркированных данных, а не полагаться на тщательно аннотированные наборы данных. Сегодня SSL лежит в основе передовых моделей для всех модальностей - язык (например, перевод и большие языковые модели), аудио (например, data2vec) и зрение (например, модель SEER, обученная на одном миллиарде изображений, и DINOv2).
Но обучение SSL похоже на приготовление изысканного блюда - это сложное искусство с высоким барьером для входа. Хотя многие ингредиенты могут быть знакомы, успешный рецепт SSL включает в себя головокружительный набор вариантов, от выбора правильных задач до обучения с тщательно подобранными и выдержанными гиперпараметрами.
Вы также найдете советы и рекомендации от более чем десятка авторов из различных университетов, включая Нью-Йоркский университет, Университет Мэриленда, Калифорнийский университет в Дэвисе, Университет Монреаля, а также ведущих исследователей Meta AI, таких как Янн ЛеКун.
📕 Книга
🐕 Анонс
Meta выпустили новую "Поваренную книгу самоконтролируемого обучения" - практическое руководство для исследователей и практиков ИИ о том, как сориентироваться в рецептах SSL (self-supervised learning), понять его различные “ручки и рычаги” и получить ноу-хау, необходимые для экспериментов с SSL.
Self-supervised learning (SSL), которое называют "темной материей интеллекта", является ключевым ингредиентом недавних прорывов в области ИИ.
Оно расширило границы глубокого обучения во многих областях, позволяя обучаться на огромных объемах немаркированных данных, а не полагаться на тщательно аннотированные наборы данных. Сегодня SSL лежит в основе передовых моделей для всех модальностей - язык (например, перевод и большие языковые модели), аудио (например, data2vec) и зрение (например, модель SEER, обученная на одном миллиарде изображений, и DINOv2).
Но обучение SSL похоже на приготовление изысканного блюда - это сложное искусство с высоким барьером для входа. Хотя многие ингредиенты могут быть знакомы, успешный рецепт SSL включает в себя головокружительный набор вариантов, от выбора правильных задач до обучения с тщательно подобранными и выдержанными гиперпараметрами.
Вы также найдете советы и рекомендации от более чем десятка авторов из различных университетов, включая Нью-Йоркский университет, Университет Мэриленда, Калифорнийский университет в Дэвисе, Университет Монреаля, а также ведущих исследователей Meta AI, таких как Янн ЛеКун.
📕 Книга
🐕 Анонс