AI Для Всех
12.8K subscribers
1.17K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Self-Supervised Learning based on Heat Equation

Авторы обратили внимание на то, что карты активации классов полученные из global average pooling сверточных сетей похожи на физическое рассеивание тепла. Вдохновившись теплопередачей из физики они адаптировали уравнение теплопроводности и использовали его вместо лейблов, что позволило перевести задачу из supervised в self-supervised learning (#SSL).

На этапе обучения pretext-задачи, изображение делят на 4 патча, один из которых подается на вход модели, а остальные 3 предсказываются ей. Таким образом модель учит латентное представление.

Авторы утверждают, что их подход применим как для классификации изображений, так и для обнаружения объектов. Код обещают позже.

📖 Статья
@karray
This media is not supported in your browser
VIEW IN TELEGRAM
DINOv2: Learning Robust Visual Features without Supervision

Авторы из Meta AI решили провести ревизию и масштабировать существующие подходы self-supervised learning (#SSL) для извлечения скрытых признаков из изображений (pre-text task).

DINOv2 - комбинация идей из DINO, iBOT и SwAV. Авторы показали, что увеличивая количество параметров растёт и производительность. Их модель на 1.1B параметров обошла weakly-supervised методы в 8 из 10 бенчмарках на downstream задачах сегментации и построении карт глубины (код и веса уже доступны).

Для увеличения количества параметров моделей требуется больше данных, и SSL идеален в этом смысле, поскольку не требует наличия ручной разметки. Но эффективность обучения напрямую зависит от качества данных. Для решения этой проблемы авторы предложили новый подход сбора изображений из непроверенных источников используя курируемые наборы данных (такие, как ImageNet).

Они предложили пайплайн состоящий из нескольких техник фильтрации изображений из непроверенных источников. Например, они используют существующие SSL модели для извлечения эмбеддингов из изображений для последующей кластеризации. Используя эмбеддинги из курируемых наборов данных, они размечают кластеры и сортируют похожие изображения. Таким образом им удалось создать большой и сбалансированный набор данных высокого качества.

Статья | Код | Демо

@karray
Поваренная книга Self-supervised Learning (#SSL) от Meta.

Meta выпустили новую "Поваренную книгу самоконтролируемого обучения" - практическое руководство для исследователей и практиков ИИ о том, как сориентироваться в рецептах SSL (self-supervised learning), понять его различные “ручки и рычаги” и получить ноу-хау, необходимые для экспериментов с SSL.

Self-supervised learning (SSL), которое называют "темной материей интеллекта", является ключевым ингредиентом недавних прорывов в области ИИ.

Оно расширило границы глубокого обучения во многих областях, позволяя обучаться на огромных объемах немаркированных данных, а не полагаться на тщательно аннотированные наборы данных. Сегодня SSL лежит в основе передовых моделей для всех модальностей - язык (например, перевод и большие языковые модели), аудио (например, data2vec) и зрение (например, модель SEER, обученная на одном миллиарде изображений, и DINOv2).

Но обучение SSL похоже на приготовление изысканного блюда - это сложное искусство с высоким барьером для входа. Хотя многие ингредиенты могут быть знакомы, успешный рецепт SSL включает в себя головокружительный набор вариантов, от выбора правильных задач до обучения с тщательно подобранными и выдержанными гиперпараметрами.

Вы также найдете советы и рекомендации от более чем десятка авторов из различных университетов, включая Нью-Йоркский университет, Университет Мэриленда, Калифорнийский университет в Дэвисе, Университет Монреаля, а также ведущих исследователей Meta AI, таких как Янн ЛеКун.

📕 Книга
🐕 Анонс
Связь между self-supervised learning и теорией информации

ИИ может делать удивительные вещи, но ему обычно требуется много помеченных данных. На помощь приходит self-supervised learning (#SSL) - способ, позволяющий ИИ обучаться без меток. В новой статье Яна Лекуна и Равида Швартца авторы глубоко погружаются в мир self-supervised learning и теории информации.

При supervised learning обучении мы сохраняем полезную информацию и выкидываем все остальное. Но в случае self-supervised обучения все сложнее: как сильно мы должны сжать данные, чтобы обучение было эффективным?

Для ответа на этот вопрос необходимо найти баланс между сжатием и максимизацией информации. Авторы вводят "предположение о многоракурсности", чтобы помочь справиться с этой проблемой.

В статье рассматриваются:

* пересечение теории информации, self-supervised learning и глубоких нейронных сетей.
* Единая структура для понимания self-supervised learning
* Роль предположения о многоракурсности и его ограничения
* Современные алгоритмы self-supervised learning
* Измерение информации в нейронных сетях

📕Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Дежа вю у моделей self-supervised learning (#SSL)

Еще одно исследование по SSL от Meta AI, где авторы исследуют проблему оверфиттинга SSL моделей, которую они называют Дежа вю. В исследование обсуждается риски связанные с тем, что SSL модели могут с высокой точностью извлекать или даже визуально реконструировать объекты из обучающей выборки только по фрагменту изображения (например, воду, небо, траву), что создает риски конфиденциальности для изображений с чувствительной информаций.

Дело в том, что для обучения SSL моделей чаще всего создают несколько представлений одного и того же изображения, используя аугментации (например, crop), где лосс минимизирует расстояние между эмбуддингами этих представлений (подробнее об SSL). Таким образом, эмбеддинг фона изображения может находиться близко к эмбеддингу интересующего нас объекта и, имея только фрагмент фона, можно идентифицировать целевой объект (в статье используют фрагмент озера в качестве фона и черного лебедя в качестве целевого объекта).

Поскольку SSL не требует никакой разметки, нет простого способа тестирования таких моделей, как например, Grad-CAM для supervised-learning. В статье авторы описывают способы идентификации оверфиттинга и предлагают набор техник для его минимизации.

📜 Сатья
🖥 Код
@karray
This media is not supported in your browser
VIEW IN TELEGRAM
Materialistic: Selecting Similar Materials in Images

MIT совместно с Adobe разработали метод сегментации похожих материалов. Этот метод хорошо работает с различными условиями освещения и тенями, и не полагается на семантическую сегментацию.

В этом подходе используется предварительно обученная self-supervised (#SSL) модель DINOv1 от Меты. Несмотря на свои впечатляющие возможности, эмбеддинги в DINO не инвариантны и поэтому не могут быть использованы для сегментации материалов. Для решения этой проблемы, авторы добавили к DINO энкодер материалов, который сопоставляет эмбеддинги из DINO с материалом и преобразует пространственно неточные представления в более точные попиксельные представления. Cross-Similarity модуль позволяет пользователю выбирать материал, который будет сцементирован по всему изображению.

📜 Статья
🌐 Примеры

@karray
Ай-ЖЕПА: умная модель AI, которая учится понимать мир как люди

Meta представили первую AI модель, основанную на ключевом компоненте видения Яна ЛеКуна. Модель I-JEPA выучивает скрытое представление окружающего мира и отличается высокой эффективностью в различных задачах компьютерного зрения.

В прошлом году главный научный сотрудник по AI в Meta, Ян ЛеКун, предложил новую архитектуру, призванную преодолеть ключевые ограничения даже самых передовых AI систем сегодня. Его видение - создать машины, которые способные понять, как работает мир. Он считает что тогда они и обучаться будут быстрее, и планировать, как выполнять сложные задачи, и легко адаптироваться к незнакомым ситуациям тоже смогут.

И вот, Meta наконец то представили первую AI модель, основанную на ключевом компоненте видения ЛеКуна. Эта модель, Image Joint Embedding Predictive Architecture (I-JEPA), учится создавать модель окружающего мира с помощью сравнения абстрактных образов (вместо сравнения просто пикселей.

I-JEPA демонстрирует потенциал self-supervised (#SSL) архитектур для представлений изображений без необходимости в дополнительном знании, закодированном через ручные преобразования изображений. Это важный шаг к применению и масштабированию self-supervised методов для изучения общей модели мира.

И пусть "Ай-ЖЕПА" в русском языке может и звучать немного забавно, Meta делает ставку на то, что AGI к нам придет от зрения (вообще кажется все компании так или иначе делают ставку на один орган осязания, например на язык как в случае с Open AI).

✌️ Блог-пост
📖 Статья
💾 Код
Deep TDA работает лучше, чем традиционные алгоритмы снижения размерности🔬🧮

Мы вступаем в новую эру анализа данных благодаря прорывному алгоритму - Deep TDA. Этот новаторский метод позволяет добывать инсайты из сложных данных. Он сочетает в себе мощь self-supervised learning (#SSL) и Топологического Анализа Данных (TDA).

Долгое время такие инструменты, как t-SNE и UMAP, были непревзойденными в области снижения размерности. Их роль в анализе сложных наборов данных неоценима, причем t-SNE, разработанный Хинтоном и ван дер Маатеном еще в 2008 году, до сих пор очень популярен.

Но ветер перемен дует! Deep TDA обещает впечатляющие возможности:

1️⃣ Он демонстрирует устойчивость к шуму и выбросам.
2️⃣ Он эффективно масштабируется для сложных, высокоразмерных наборов данных.
3️⃣ Он снимает необходимость в тщательной настройке или глубоком понимании данных.
4️⃣ Он охватывает и отображает более полную картину набора данных.

На картинке сверху сравнительное исследование всех трех техник на временном ряде (исследователи повесили акселерометр на корову, посмотрите как TDA создает кластеры для разных типов движения):

• t-SNE удерживает слишком много структуры, большая часть которой не существует.
• UMAP справился лучше, хотя структура казалась несколько размытой.
• TDA, однако, сработал великолепно, сохраняя детализированную структуру данных.

Deep TDA это еще один важный шаг к светлому будущему анализа данных!

🦾 Блог-пост
Explainable AI для self-supervised learning

Self-supervised learning (#SSL) - подход в машинном обучении, в котором модель учит представление данных (скрытую структуру, лежащую в основе данных), не требуя для этого никакой ручной разметки. Такие модели ещё называют энкодерами, потому что на выходе у них эмбеддинги.

В последнее время SSL демонстрирует впечатляющие результаты и поэтому важно понимать, что модель выучила на сама деле, перед тем как использовать её в таких критических сферах, как, например, здравоохранение.

Explainable AI (#XAI) помогает понять, как модель пришла к определенному решению. В компьютерном зрении это могут быть тепловые карты регионов изображения, которые были решающими для классификации.

Проблема в том, что классические подходы XAI из supervised learning тут не работают, так как для вычисления метрики “соответствия истине” (score function) требуются лейблы.

Например, в Grad-CAM мы можем вычислить отклонение предсказания от целевого лейбла и обратным распространением ошибки получить тепловую карту важных областей для этого класса. Подробнее об этом методе мы писали тут.

К сожалению, для SSL моделей такой подход работать не будет, так как нам не с чем сравнивать их вывод. На данный момент для SSL очень мало XAI методов и в следующих постах я бы хотел поделиться наиболее перспективными из них.

Подпишись на @nn_for_science
RELAX: Representation Learning Explainability

Aдаптация #XAI метода RISE для #SSL моделей, в котором случайным образом маскируются части изображения.

Если в RISE в качестве score function сравнивается отклонение предсказания от целевого класса замаскированных изображений, RELAX в качестве score function использует меру сходства (cosine similarity или L2 норму) между эмбеддингом, полученный из исходного изображения с эмбеддингами маскированных изображений.

Другими словами, эмбеддинг исходного изображения используется как лейбл, что позволяет определить, какие области изображения больше всего «отдаляют» эмбеддинги маскированных изображений от исходного. Суммируя все маскировочные карты, умноженные на этот коэффициент, получаем тепловую карту.

Минусы такого подхода - низкое разрешение тепловых карт, так как для маскировки всех комбинаций пикселей не хватит никаких ресурсов (для изображения 32х32 понадобится 2^1024 карт маскировки).

Кроме того, мы не можем быть уверены, что модель выучила реальное представление данных. Поэтому исходный эмбеддинг не обязательно является истинным.

📄 Статья

Подпишись на @nn_for_science