Нейрократия

Проблема механистического подхода к интерпретации ИИ

В марте произошла любопытная история. Google DeepMind объявил о значительном сокращении приоритета исследований в области механистической интерпретируемости. Уже в следующем месяце CEO Anthropic, Дарио Амодей, напротив выступил с яростной защитой именно этого подхода, предсказывая, что уже через 5-10 лет мы получим нечто вроде «МРТ для ИИ».

Всё это безобразие разобрали AI Frontiers (спасибо Лёше @chillhousetech за наводку!).

Вокруг темы интерпретируемости («interpretability») в ИИ давно идёт жаркая (хоть на мороз беги) дискуссия. Сама эта идея состоит в том, чтобы заглянуть внутрь нейросетевых «мозгов» и понять всё в мельчайших деталях — до уровня отдельных нейронов. Когда в руках модель с сотнями миллиардов параметров, хочется иметь контроль и прозрачность.

Проблема в том, что такая красивая идея не оправдывает вложений.

Современные нейросети — это классический случай «комплексных систем». Такие системы (от погоды до человеческого мозга) демонстрируют «эмерджентные» свойства: поведение целого гораздо больше суммы его отдельных частей. Мы не пытаемся до 1км предсказать погоду, подсчитав перемещения каждой молекулы. Нейрофизиологи перестали верить, что каждый нейрон мозга точно объяснит нам человеческое поведение и эмоции.

За десятки лет эксперименты показали крайне ограниченные результаты:

— Популярные когда-то Saliency Maps («карты значимости») подчёркивали важные области входного изображения. А оказалось, что карты почти не меняются даже тогда, когда нейросетям подставляются случайные веса. То есть карты просто иллюзия понимания.

— Попытки Feature visualizations («визуализаций фичей») привели к забавным картинкам, которые не давали реальных объяснений работы нейронов. В лучшем случае мы получали сюрреалистические изображения, напоминавшие собак с ушами-трубами и глазами-шестерёнками, но пользы от таких картинок оказалось мало.

— Исследования Sparse Autoencoders («редких автоэнкодеров») от DeepMind, на которые ещё недавно возлагали большие надежды, дали настолько бедные результаты, что компания де-факто свернула направление. Простые baseline-методы показывали лучшие показатели.

Это глобальная проблема подхода. Попытки упаковать терабайты обученных знаний из модели в понятное для человека объяснение обречены быть приблизительными, неполными или просто иллюзорными. Более того, упрощённые объяснения автоматически пропускают edge-кейсы — а в них и скрываются основные риски и ошибки реальной эксплуатации нейросетей.

«Механистическая интерпретируемость» — соблазнительное, но практически бесплодное направление. Оно привлекательно именно тем, что совпадает с аккуратным техническим складом ума исследователей, любящих чёткий, детализированный разбор, неосуществимый в комплексных системах.

И здесь звучит аргумент физика Мюррея Гелл-Манна, предложившего ещё в 1990-х искать понимание сложных систем на том уровне, который демонстрирует инвариантность и повторяемость паттернов, а не на уровне микроскопических деталей. Мы начинаем не с отдельных нейронов, а со смысловых высокоуровневых представлений («репрезентаций»).

Перспективное направление — Representation Engineering (RepE), область исследований, где фокус именно на высокоуровневых характеристиках моделей. Вместо попыток найти некий «вселенский нейрон», ответственный за конкретное поведение сети, мы целенаправленно редактируем и контролируем модель посредством управления «смысловыми репрезентациями».

Этот метод даёт практические результаты: модели можно заставить быть более честными, устойчивыми к взломам, или даже редактировать их внутренние «ценности», избегая бесконечной и бесполезной возни в нейронных дебрях.

Вместе с тем, не нужно полностью прекращать исследования «механистического подхода»: пусть он остаётся как фундаментальная исследовательская концепция. Но стратегически и прагматично top-down подход должен стать приоритетом.

❗️

❗️ / Не запрещена в РФ

Please open Telegram to view this post