Data Blog
1.33K subscribers
97 photos
3 videos
4 files
157 links
Explainable AI и котики
Download Telegram
Автообъяснения для любой модели: Plug-and-Play XAI — фреймворк

🐄Привет, друзья!

Область XAI развивается семимильными шагами, так что я к вам со свежей (от 15 мая) статьей, презентующей новый фреймворк для получения объяснений от моделей.

Что: PnPXAI, статья

Для каких модальностей — все популярные: изображения, текст, табличные данные и временные ряды.

Отличительные особенности:

автоматически определяет архитектуру модели (см. модуль detector), что важно в использовании архитектурно-специфичных методов
автоматически предлагает релевантные XAI-методы (см. модуль recommender) — не нужно гуглить и учить что-куда
предлагает оценки объяснения — не нужно ходить в отдельный фреймворк (модуль evaluator)
— оптимизирует гиперпараметры для повышения качества pileline задачи объснений модели (по аналогии с optuna для тюнинга моделей, модуль optimizer)
— Широкий зоопарк методов с понятной навигацией (см. модуль explaner)

Поскольку есть факт, что многие из существующих библиотек объяснений жёстко привязаны к архитектурам моделей или типам данных — фреймворк очень обещающий. Встроенный AutoExplanation позволяет получить объяснение «в один тык». Удобно.

Буду тестировать и добавлять туториала его в уроках для курса по Multimodal XAI. Да и в целом наткнулась на него в этом контексте.

🐄 Сохраняйте на потом, делитесь и пользуйтесь, штука классная!
Ваш Дата-автор!
🔥12👍6
Лучшее для потыкать и изучить на сегодня, друзья!
Forwarded from AI для Всех (Artemii)
🧠🔍 Anthropic выложили в открытый доступ «рентген» для LLM

Сегодня ребята из Anthropic выложили в open-source свежайший circuit-tracer — библиотеку + веб-интерфейс, которые позволяют буквально «посветить фонариком» внутрь любых открытых LLM и посмотреть, как токены влияют друг на друга.

Что дают?

Attribution graphs — автоматически строят граф «кто-на-кого влияет» (токены → фичи → логиты).
Neuronpedia UI — кликаешь 👉 смотришь цепочки рассуждений, группируешь узлы, подписываешь и делишься ссылкой.
Интервенции — в ноутбуке можно подкрутить найденные фичи и сразу увидеть, как меняется ответ модели.

Зачем это нам?
🔑 Интерпретируемость давно отставала от «качаем ещё 10B параметров». Теперь любой энтузиаст может проверить, какие цепочки выводят модель к финальному слову, найти баги рассуждений и даже чинить их on-the-fly.

Пробуйте, делитесь самыми странными цепочки — интересно, какие «мысленные кроличьи норы» вы откопаете! 🐇👆

Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤‍🔥3
Привет, друзья! Как же я по вам…скучала!

И вот возвращаюсь с интересной статьей Grokking ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior.

Гроккинг — явление, при котором модель на протяжении множества шагов успешно запоминает обучающую выборку, но не умеет обобщать (то есть валидируется плохо), а затем (после большого количества итераций) внезапно начинает хорошо решать задачу на валидации.

Про гроккинг, упоминалось пару постов выше, когда делилась статьей хорошего знакомого. И эта статья — исследует его (гроккинг, не знакомого) с точки зрения интерпретируемости.

Работа интересная с точки зрения XAI необычным трюком — разложением прогноза модели на компоненты, объединяющие данные, параметры и шаг обучения.

Предложенная идея является расширением Exact Path Kernel (EPK) — метода, разлагающего модель, обученную градиетным спуском, в виде ядровой функции. Ранее этот метод был предложен для SGD, а здесь его обобщили для более широкого класса оптимизаторов.

По итогу предсказание модели записывается как сумма взвешенных скалярных произведений между
- чувствительностью тестового примера к параметрам,
- вкладом обучающего примера в параметры на каждом шаге,
- величинами обновлений параметров на этом шаге.

Ключевые свойства разложения:

1. Прогноз точно восстанавливается из суммы вкладов по обучающим примерам и по шагам — без аппроксимаций.
2. Разложение математически доказываемое
3. Разложение связывает 3 компоненты — данные, параметры и шаг обучения, и дает ответ на вопрос кто и как повлиял в данных на конкретный предсказанный ответ — классические методы сравнивают чаще всего вход и выход, как это делают SHAP или LIME.

Что это приоткрыло для явления гроккинга?

* Сначала модель переобучается, причем вклад в прогноз вносят выходной и последний слои ;
* Потом начинают формироваться «глубокие» представления, вклад в прогноз центрируется с точки зрения расположения в модели (уходит на средние слои);
* В конце, когда модель «грокнула» задачу — остается вклад средних слоев, но вырастает и лидирует вклад финальных представлений, теперь вместе с начальными;
* Изученная геометрия задачи встраиваема. То есть если грокнутые представления вставить с шаг обучения пораньше, то модель начинает обобщать сильно быстрее (рисунок 4 в статье)

Сложность метода, конечно, некультурна — O(NDMO) — для N шагов обучения, D параметров, M обучающих выборок и O измерений. Но такой контроль даёт детализированный анализ процесса обучения.

Но всё же я очень хочу подчеркнуть эту общую идею декомпозиции:
прогноз можно разложить на компоненты, не всегда простые, но понятные — здесь соответствующие конкретным данным, параметрам и моментам обучения. Это не просто даёт объяснение — это открывает путь к прозрачности, а значит имеет потенциал в редактировании моделей, переносе знаний, отслеживании сдвигов.

Красиво? Не то слово. И разлагать на простое не обязательно EPK — важна сама идея. Быть может и вас она на что-то натолкнет :)
7👍2
И лирическое отступление:

Скучала я, конечно, сильно и вот по какой причине — последний месяц сдавала экзамены. Сначала вступительные в магистратуру, а потом — сессия и гос экзамен. Было очень важно доказать самой себе свои знания и возможности — так что я буквально жила в режиме сон-повторение-еда и физическая активность.

И как же я загналась, друзья! Поняла это только за 3 дня до госа, так что последние 3 дня старалась вернуться в баланс. Снова читала статейки, делала свои исследования, писала ВКР и просто смотрела на уток и деревья. Стало сильно легче.

Чертовски важно не загонять себя тем, что любите. Иначе любовь перетекает в ненависть и все азарт, незаметное течение времени и горящие глаза становятся ничем.

А ничто — это будто бы грустно.

В честь начала лета и до его конца — закидываю промокод DOBBY на курс по XAI. Буду потихоньку писать второй — про мультимодальные модели и, надеюсь, за лето еще много что интересного будет!

Берегите себя и своё время,
Ваш счастливый Дата автор! ❤️
❤‍🔥15👍31👎1🤣1
Интерпретация CLIP, papers with code (свежие).

Привет, друзья! В последнее время ударилась в анализ методов интерпретации для мультимодальных моделей.Из интересного — собрала методы и идеи для анализа CLIP.

▪️ Пре-теория:

CLIP — модель, обученная сопоставлять изображение и текст в общем пространстве.
Spurious features — признаки, которые коррелируют с меткой в данных, но не связаны причинно (например, фон).
Zero-shot классификация — предсказание без обучающих примеров для класса, только по текстовому описанию.
Second-order effect — влияние элемента модели не напрямую, а через цепочку последующих преобразований.
Mutual knowledge — общий понятийный слой между текстом и изображением, на котором модель принимает решение.

▪️Как обычно интерпретируют CLIP?

Чаще всего исследуют, на какие текстовые концепты "смотрит" изображение, используя:

— Similarity scores между image и text embeddings,
— Grad-CAM/attention heatmaps,
— Prompt engineering

В отличие от обычных подходов, статьи ниже предлагают иную парадигму — либо через анализ внутренних представлений модели (нейроны, attention-heads), либо через поведенческий анализ взаимодействия между модальностями (текстом и изображением).

▪️ Статьи:

1. CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation [repo]

Как размер объекта и порядок слов в промпте влияют на поведение CLIP? Пример анализа поведения модели в зависимости от промпта.

Авторы анализируют задачу поиска изображения и классификации и показывают, что:
— порядок слов влияет на приоритет внимания;
— мелкие объекты игнорируются, если не упомянуты явно;
— модель чаще "видит" первый объект в тексте, особенно если он крупный на изображении.


2. “Interpreting the Second-Order Effects of Neurons in CLIP” [repo]

Здесь исследуются отдельные нейроны, чтобы понять, какие семантические концепты они кодируют. Основной инструмент — second-order effects: вклад нейрона в выход модели через последующие attention-слои.

Авторы:
— выделяют нейроны, кодирующие семантические концепты (напр. “рыжая собака”);
— автоматически подбирают текстовые описания нейронов;
— применяют это для генерации adversarial-примеров и улучшения zero-shot сегментации

3. INTERPRETING CLIP’S IMAGE REPRESENTATION VIA TEXT-BASED DECOMPOSITION [repo]

В этой работе CLIP-ViT разбирается по слоям и attention-head’ам. Авторы:
— выявляют специализированные головы: по цвету, числу, форме, геолокации и пр.;
— применяют результат применяется для удаления spurious признаков (признаков, которые коррелируют с метками классов в обучающей выборке, но не являются причинно значимыми для правильного вывода. Пример окружение «вода» для уток).
— пименяют результат для повышения устойчивости модели (и решения задачи сегментации)

Кстати пример поиска стиральных признаков вот, но мне не удалось найти описания к нему.

4. "Interpreting and Analysing CLIP’s Zero-Shot Image Classification via Mutual Knowledge" [repo]

Авторы объясняют zero-shot классификацию CLIP через взаимное знание (mutual knowledge) между визуальным и текстовым энкодерами:
— извлекают визуальные концепты (через PCA/K-means) и сопоставляют им тексты;
— оценивают вклад каждого концепта в предсказание;
— показывают, как сила взаимной информации коррелирует с уверенностью и качеством вывода.

▪️ Что есть ещё:

Интерпретация CLIP через градиетный подъём.

Как использовать всё ниже:
Для вдохновения, общего знания и того самого списка на "пригодится" :)
7🔥6
🦑 Привет, друзья!

Меня не было тут почти месяц, хотя я не прекращала работать. Или пытаться это делать. В последнее время думаю о выборе магистратуры, учу математику и пытаюсь допинать статью. Думаю ещё, чем точечно в интерпретируемости хочу заниматься и куда хочу идти.

Думать сложно, но я пытаюсь.

Вернуться хотелось как-то красиво, поэтому я с новым туториалом: LIME for Time Series Data.

LIME (Local Interpretable Model-Agnostic Explanations) — популярный модет в решении задачи интерпретации. Он основан на простой идее — приблизить прогнозы сложного оценщика (например, нейронной сети) простым — обычно линейной/логистической регрессией.

Применить LIME можно из коробки при помощи одноименной библиотеки [lime]. Однако, при применении LIME к, в частности, к временным рядам возникают особенности,
поэтому в чистом виде lime для TimeSeries не всегда легко применить.

И в этом туториале мы сделаем приближенение метода самостоятельно! И получим красивые, очень красивые, графики.

Как всегда, вместе с Хабропостом, код на гитхаб.

Скучала, и надеюсь вернуться из творческого кризиса,
Ваш Дата-автор! ❤️
❤‍🔥12🔥3
🐈‍⬛ Потому что у меня двое.

Cats Confuse Reasoning LLMs — arXiv:2503.01781

Привет, друзья! С одной стороны, известно, что если сказать LLM, что успех в задаче принесёт награду (например, деньги), это может улучшить её перформанс (arXiv:2312.16171, arXiv:2506.06303v1). С другой — вот ещё свежая статья про то, как LLM можно сломать простой вставкой случайного текста в промпт.

Зачем об этом знать, (кроме котиков)?
Потому что это демонстрирует уязвимость LLM к незначительному шуму в промпте. А значит — риск для устойчивости модели при использовании (если ввод не фильтруется).

Что показали:
Reasoning‑модель можно сбить с толку без изменения сути задачи. Достаточно добавить в тело промпта фразу вроде: Interesting fact: cats sleep for most of their lives. (Эта вставка и дала название статье.)

Что сделали:
1) Разработали pipeline CatAttack — автоматический подбор текстовых триггеров (генерировали их с помощью GPT‑4o).
2) Среди подобранных триггеров выделили три типа и оценили их эффективность:
Redirection of Focus
Unrelated Trivia
Misleading Questions
3) Подбирали триггеры на слабой модели DeepSeek V3, а затем проверяли их переносимость на более мощные DeepSeek R1 и Qwen‑32B.

Что получили:
Существенное падение точности reasoning у сильных моделей.
Замедление генерации в 1.5–4 раза.
Самыми разрушительными оказались подсказки типа Misleading Questions, например: "Could the answer be around 175?"

Ограничения:
Важно учесть, что задачи тестировали только на математических задачах из GSM8K и не исследовалась устойчивость более продвинутых моделей (GPT-4, Claude, Gemini). Плюс, эффект может снижаться, если модель была обучена фильтровать ввод.

Но даже с этим — это по-настоящему забавно: как LLM ломается из-за случайной фразы. Особенно когда она про котов :)

Меня эта статья просто безумно улыбнула, поэтому она здесь. И вот такой пост выходного дня, друзья! Надеюсь, у вас лето — потому что у меня — наконец-то да!

Оттаивающий от кризиса,
ваш Дата-автор
9🔥4
[мемы генерировала GPT, мне понравились, поэтому тоже держите]
😁6
NLE: low math explanations

Xочу закинуть сюда относительно свежую статью A Taxonomy for Design and Evaluation of Prompt-Based Natural Language Explanations.

Почему про NLE?
Объяснения в виде естественного языка удобны. Они не требуют математических гипотез для анализа внутренних представлений. Плюс, относительно анализа внутренностей — их проще презентовать аудитории. И это самый практико-ориентированный подход.

Почему про NLE надо что-то изучить перед использованием?
NLE — не надежны. Объяснение может быть:
не связано с задачей [1],
сломано из-за промпта [2, тут показывали, как влияют на CoT смещающие токены],
плохим влиянием на людей, которым оно предоставляется [тут есть много статей в статье, но психологически большему количеству людей в экспериментах легче перекладывать решение/объяснение на ИИ, даже если оно не правильное]

Что в статье:
Таксономия на 3 основных типа (Контекст, Генерация, Оценка), со своими подтипами (всего подтипов 13). Это может дать хорошее вдохновение на оценку NLE, если вы их используете.

Почему статью надо было сюда:
Когда очень хочу разобраться в новой теме или тезисе, всегда начиню с поиска таксономий по ней. А когда таксономий не существует — пытаюсь сделать их сама, чтобы по итогу получить ориентир для «серфинга» по области. Так что хорошая отправная точка.

Мне, правда, пока NLE кажутся похожими на vibe-coding. Но, возможно, у них есть потенциал.

Такой скептичный,
Ваш Дата-автор
7
Друзья, заходите в воскресенье к нам послушать!

Пока готовились, разогнались с темами на несколько выпусков)
Forwarded from AI Security Lab
Соскучились по нашим подкастам? Самое время вновь встретиться и обсудить проблемы безопасности ИИ 💥

На этот раз мы поговорим об Интерпретируемости моделей ИИ: как, зачем и насколько это реально?
Обсудим вызовы объяснимости моделей ИИ, рассмотрим актуальные исследования в области интерпретируемости классических моделей и LLM от ведущих команд и вендоров.

Когда: 27 июля, 11:00 (МСК)
Платформа: Zoom, регистрация

Приглашённые гости:
➡️Максим Костриця – DS Reseacher в Raft, магистр ФКН ВШЭ
➡️Сабрина Садиех – исследователь XAI, выпускница ПетрГУ
Модератор: Тимур Низамов, разработчик LLAMATOR, студент AI Talent Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
7
Привет, друзья!

Хорошо, когда на что-то можно посмотреть. Виузальные образы помогают понять объект, но ещё лучше — когда можно с объектом что-то сделать.

С трепетной любовью вообще отношусь к хорошим визуализациям работы моделей, а тут вот появилась очень свежая и очень красивая —  InTraVisTo.

Из названия — Inside Transformer Visualisation Tool — посвящена трансформерам.

Визуализация построена следующим образом:

* Декодинг скрытых состояний при помощи Logit Lens (у меня про него есть туториал) и построение Heatmap;
* Построение Sankey-диаграммы — диаграммы потоков, которая показывает распространение информации через блоки внимания и FFN.

! Кроме как посмотреть можно интерактивно делать инъекции.

То есть заменить скрытый вектор в любой позиции и на любой глубине внедрением токена, выбранного из словаря. Глобально — это как пушкой по воробьям, но попробовать поиграть с тем, как вмешательство в конкретный вектор влияет на модель — можно.

Поддерживает разные модели (Mistral, Llama) и режимы декодирования (input/output/смешанный).

Работает в GUI.

Попробовать: GitHub
Попробовать, но не поднимать: демка
4
И если вы тоже фанат, то вот — из других визуализаций ещё есть

1. BertViz
2. Interactive-GPT-2
3. LM Transparency Tool
4. Transformer explainer — очень похожая на InTraVisTo, но у последней больше выбор моделей и есть упомянутая инъекция.
5
Как это выглядит
11
Друзья, привет!

Коллеги выложили запись нашего вчерашнего подкаста
об интерпретируемости. За час мы обсудили актуальные направления в области интерпретируемости классических моделей и LLM и накидали гипотез.

Гости подкаста:
➡️Максим Костриця – DS Researcher в Raft, магистр ФКН ВШЭ
➡️Тимур Низамов, разработчик @LLAMATOR, магистрант Talent Hub ИТМО
➡️Честер, вроде бы он заходил, и я :)

Тайм-коды:
00:00:00 интро
00:04:21 как развивалась область интерпретируемости?
00:08:23 концептуальные слои
00:16:55 поведенческий и репрезентативный анализ
00:27:09 механистическая интерпретируемость
00:33:22 Sparse Autoencoders и результаты исследования Максима по влиянию на "токсичные" нейроны модели
01:01:10 в чём идея Circuit Tracing?
01:03:20 подведение итогов: есть ли тренд на интерпретируемость и к чему это может привести?
01:11:49 QA

Полезные ссылки по теме, упомянутые в подкасте:

https://habr.com/ru/articles/885076/ — туториал про зонды
https://arxiv.org/pdf/2507.12950 — кейсы XAI в радиологии
https://www.lesswrong.com/posts/jGuXSZgv6qfdhMCuJ/refusal-in-llms-is-mediated-by-a-single-direction
https://www.anthropic.com/news/golden-gate-claude
https://monitor.transluce.org/dashboard/chat
https://www.neuronpedia.org/
https://platform.goodfire.ai/
https://transformer-circuits.pub/

Ссылка на ютуб: https://www.youtube.com/watch?v=M9jVLiFXs04
🔥9
Привет, друзья!

У Antropic’ов вышли некоторые июльские обновления в тредах. Пока изучаю, очень зацепилась за статью Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data [paper].

Термин Subliminal Learning — введен как передача поведенческих черт от модели-учителя к модели-студенту при дистилляции.

✔️ Как делали эксперимент
Брали:

1. Учителя: модель, модифицированная через системный промт или дообучение для выражения определённой черты — в статье это предпочтение конкретному животному, дереву и миссалигнмент.

2. Данные: датасет, сделанный pretrained/modified моделью учителем. Важно, что дотасет такой, что черта, зашитая в модель при дообучении не выражена. Пример  — мы сказали модели, что она любит сов и просим её сгенерировать числа. Этот датасет (остановимся на числах) дальше используется для модели-студента, после фильтрации — очищения данных от любых явных или потенциально связанных с чертой признаков.

Для фильтрации в том числе использовали LLM.

3. Студента: моделей-студентов брали в нескольких сетапах
(i) та же базовая архитектура модели, что и учитель;
(ii) отличная от учителя базовая архитектура модели;
(iii) модели, обученные на схожих инициализациях


✔️ Что получили
1. Модели-ученики, обученные на числовых последовательностях от учителей с заданными предпочтениями (например, к животным или деревьям), сдвигаются в сторону этих предпочтений.

Пример:

— До обучения GPT-4.1 nano выбирает «owl» как любимое животное в 12% случаев.
— После обучения на числах от "сово-ориентированного" учителя — более чем в 60% случаев.


Контрольные студенты, обученные на числах от "нейтральной" модели, такого смещения не демонстрируют.

Передача черт также воспроизводится при обучении на reasoning traces (Chain-of-Thought) и коде.

2. Помимо любви к совам, из более серьезного, модели могут перенимать misalignment.

Студенты, обученные на числах, сгенерированных misaligned моделью (дообученной на небезопасном коде), демонстрировали некорректное поведение на свободных промтах (например, призывы к насилию). Контрольные модели (обученные на тех же числовых шаблонах от безопасных учителей) — таких эффектов не демонстрируют.

✔️Всегда ли можно перенять знания? Нет.
Показали, что эффект Subliminal обучения возникает если:

— учитель и студент —  одна и та же архитектура с одинаковой инициализацией весов.
— учитель и студент имеют близкие инициализации параметров (GPT-4.1/GPT-4o)


2 + 2. Математика входит в статью

Формально, на основе разложения в ряд Тейлора (блок 6, полное док-во в Appendix C) показано, что обучение на основе меток, созданных любым достаточно близким учителем, будет перемещать ученика только в том же направлении или, в худшем случае, перпендикулярно обновлению учителя в пространстве параметров.

В целом, это кажется интуитивным. Но тот факт, что сдвиг не связан с природой данных обучения (учимся числам, начинаем любить сов) — удивителен.
👍61
✔️Ограничения

1. Искусственные задачи — используемые сетапы упрощены и не похожи на реальные приложения моделей.
2. Вопрос, что передается, а что нет и какие точные условия для этого (кроме близости параметров инициализации) — открыт. Например, в статье передавалось предпочтение не ко всем животным из описанного сетапа.


✔️ Впечатление

Красиво! Невероятный эстетический восторг наводят на меня статьи, которые как-то сравнивают модели, с точки зрения самостоятельного объекта. Будто бы внутри столько загадок — и как много ещё можно открыть! :)

Сразу захотелось поделиться статьей тут. Ну и картинку процесса, конечно, прилагаю.
6