PWN AI

Не фильтруй - вырежи.😵

В продолжение темы про нормализацию отклонений и тупиковость гардрейлов. Пока индустрия пытается закрыть стохастическую природу моделей регулярками или LLM-классификаторами, на сцену выходит Mechanistic Interpretability/Safety - подход к защите, работающий с весами, а не с токенами.😛

Здесь, как мне кажется, может сложиться идеальный симбиоз из двух технологий: Circuit Breakers (от Gray Swan AI) и Circuit Tracing (от Anthropic).

Диагноз

Раньше мы тыкали в черный ящик наугад. Но в марте Anthropic выкатили инструменты для трейсинга. Теперь суть уже не просто в графах. SAE (Sparse Autoencoders - модели, выделяющие интерпретируемые признаки из активаций) позволяет разложить "кашу" активаций нейронов на интерпретируемые признаки. Мы буквально можем найти конкретный интерпретируемый признак, отвечающий за концепт "написание эксплойта" или "биооружие", отделив его от соседних концептов (например, "программирование" или "биология"). Тулза Anthropic строит граф атрибуции, показывая, как этот признак формируется слой за слоем. Мы получаем точные координаты уязвимости.🐦

Операция

Когда цепь найдена, в дело вступают Circuit Breakers: вместо фильтрации на выходе они напрямую модифицируют ландшафт функции потерь (loss - функция, измеряющая ошибку модели). Если гардрейл пытается поймать пулю на вылете, то Circuit Breaker в целом и общем изымает патроны.☹️

Теоретически процесс может выглядеть так:

Извлечение: С помощью трейсинга или RepE(говорили об этом выше) мы извлекаем вектор вредоносного представления из скрытых состояний модели (обычно в средних слоях, если верить статьям).👍

Прерывание цепи: мы дообучаем модель на небольшом датасете, добавляя в функцию потерь штраф за сходство внутренних активаций с вредоносным вектором — тем самым "отталкивая" их в ортогональное (безопасное) направление.🍞

В итоге нейронная связь физически разрывается. Запрос "сделай бомбу" или "дай код содержащий малварь" превращается в шум еще до того, как дойдет до генерации токенов. Модель теряет способность сгенерировать продолжение.

В прошлом посте я писал про жесткую корреляцию: выше безопасность - ниже полезность. Circuit Breakers, похоже, решили эту проблему, но надо это проверять до конца и на практике, так как исследователи пока что мало моделей, а может просто не хотят делиться результатами.
Тесты на бенчмарке HarmBench (Llama-3 8B) роняют Attack Success Rate с ~80% до 0.8%.🍠

При этом метрики полезности (на бенчмарках MMLU, GSM8K) падают в пределах статической погрешности. Почему? Потому что мы бьем скальпелем. В отличие от RLHF, который часто "размывает" веса по всей сети, Circuit Breaker выключает конкретную семантическую ветку.

Почему мне кажется это надежнее?🍂

Защита работает на уровне семантики (эмбеддингов), а не токенов. Атакующий может кодировать пейлоад в Base64, переводить на Zulu или использовать шифр Цезаря. Но как только модель начнет "понимать" (декодировать) смысл во внутренних слоях, вектор совпадет с запрещенным(хотя как я писал выше – не всегда это может быть), и сработает прерыватель, собственно, то, что и хотелось бы иметь при нормальной защите. 🌕

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥5👏4👍2❤1🤝1

1.26K viewsArtyom Semenov, 21:04