AI Для Всех
12.8K subscribers
1.17K photos
151 videos
10 files
1.37K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Deep TDA работает лучше, чем традиционные алгоритмы снижения размерности🔬🧮

Мы вступаем в новую эру анализа данных благодаря прорывному алгоритму - Deep TDA. Этот новаторский метод позволяет добывать инсайты из сложных данных. Он сочетает в себе мощь self-supervised learning (#SSL) и Топологического Анализа Данных (TDA).

Долгое время такие инструменты, как t-SNE и UMAP, были непревзойденными в области снижения размерности. Их роль в анализе сложных наборов данных неоценима, причем t-SNE, разработанный Хинтоном и ван дер Маатеном еще в 2008 году, до сих пор очень популярен.

Но ветер перемен дует! Deep TDA обещает впечатляющие возможности:

1️⃣ Он демонстрирует устойчивость к шуму и выбросам.
2️⃣ Он эффективно масштабируется для сложных, высокоразмерных наборов данных.
3️⃣ Он снимает необходимость в тщательной настройке или глубоком понимании данных.
4️⃣ Он охватывает и отображает более полную картину набора данных.

На картинке сверху сравнительное исследование всех трех техник на временном ряде (исследователи повесили акселерометр на корову, посмотрите как TDA создает кластеры для разных типов движения):

• t-SNE удерживает слишком много структуры, большая часть которой не существует.
• UMAP справился лучше, хотя структура казалась несколько размытой.
• TDA, однако, сработал великолепно, сохраняя детализированную структуру данных.

Deep TDA это еще один важный шаг к светлому будущему анализа данных!

🦾 Блог-пост
Explainable AI для self-supervised learning

Self-supervised learning (#SSL) - подход в машинном обучении, в котором модель учит представление данных (скрытую структуру, лежащую в основе данных), не требуя для этого никакой ручной разметки. Такие модели ещё называют энкодерами, потому что на выходе у них эмбеддинги.

В последнее время SSL демонстрирует впечатляющие результаты и поэтому важно понимать, что модель выучила на сама деле, перед тем как использовать её в таких критических сферах, как, например, здравоохранение.

Explainable AI (#XAI) помогает понять, как модель пришла к определенному решению. В компьютерном зрении это могут быть тепловые карты регионов изображения, которые были решающими для классификации.

Проблема в том, что классические подходы XAI из supervised learning тут не работают, так как для вычисления метрики “соответствия истине” (score function) требуются лейблы.

Например, в Grad-CAM мы можем вычислить отклонение предсказания от целевого лейбла и обратным распространением ошибки получить тепловую карту важных областей для этого класса. Подробнее об этом методе мы писали тут.

К сожалению, для SSL моделей такой подход работать не будет, так как нам не с чем сравнивать их вывод. На данный момент для SSL очень мало XAI методов и в следующих постах я бы хотел поделиться наиболее перспективными из них.

Подпишись на @nn_for_science
RELAX: Representation Learning Explainability

Aдаптация #XAI метода RISE для #SSL моделей, в котором случайным образом маскируются части изображения.

Если в RISE в качестве score function сравнивается отклонение предсказания от целевого класса замаскированных изображений, RELAX в качестве score function использует меру сходства (cosine similarity или L2 норму) между эмбеддингом, полученный из исходного изображения с эмбеддингами маскированных изображений.

Другими словами, эмбеддинг исходного изображения используется как лейбл, что позволяет определить, какие области изображения больше всего «отдаляют» эмбеддинги маскированных изображений от исходного. Суммируя все маскировочные карты, умноженные на этот коэффициент, получаем тепловую карту.

Минусы такого подхода - низкое разрешение тепловых карт, так как для маскировки всех комбинаций пикселей не хватит никаких ресурсов (для изображения 32х32 понадобится 2^1024 карт маскировки).

Кроме того, мы не можем быть уверены, что модель выучила реальное представление данных. Поэтому исходный эмбеддинг не обязательно является истинным.

📄 Статья

Подпишись на @nn_for_science