Forwarded from Борис_ь с ml
Всем привет)
Я опять на конфе, но на этот раз не в России)
Кто тоже сегодня на SIGN China, пишите 😁
Или хотя бы в Китае)
Я опять на конфе, но на этот раз не в России)
Кто тоже сегодня на SIGN China, пишите 😁
Forwarded from Борис_ь с ml
Безопасность LoRA-адаптеров
#иб_для_ml
LoRA (2021) - технология дообучения GenAI-моделей (из семейства PEFT), при которой изменения хранятся в виде отдельного подключаемого адаптера (матрицы весов) при фиксированных базовых весах. Хоть самая идея отчуждаемых весов появилась раньше (2019), но именно с появлением LoRA она распространилась.
Сила этой технологии в масштабируемости для разрозненных команд. Когда одна команда отвечает за сервисы базовых моделей, и множество команд придумывает свои приложения или агентов, возникает задача потоковым образом предоставлять специфично дообученные модели под разные задачи бизнеса.
И здесь как раз себя показывает LoRA. Продуктовая команда собирает датасет, и грузит свои размеченные данные для дообучения. Для выбранной базовой модели создается LoRA-адаптер. На выходе для пользователя видно только новое название в поле "модель", дающее доступ к результату дообучения. Это работает, так как с технической стороны, LoRA позволяет для одной отдельно взятой LLM в проде быстро менять адаптеры, как перчатки, в зависимости от поступающих запросов.
И с ростом такого "конвейера" LoRA-адаптеров стала появляться новая поверхность атаки, эксплуатирующая особенности подключения кусочков модели к основному файлу весов.
📷 Поговорим про топ-3 классов угроз для LoRA
1⃣ Отравление данных обучения: вроде бы обычная история отравления, с LoRA приобретает несколько особенных граней. Стандартный способ атаки модифицируется - например, отравляются несколько наборов данных, и, соответственно несколько наборов адаптеров. Это делается для того, чтобы только в комбинации такие адаптеры давали вредоносный эффект бэкдоров. (ссылка)
Помимо этого, особенностью также является легкость внедрения поверхностных знаний в модель (ссылка). Так, существует работа, показывающая, что с помощью отравления LoRA можно обучить модель стеганографически сливать небольшие сообщения через ответы. (ссылка)
2⃣ Хирургия весов: самый показательный экзотический вариант - срезание FF-слоя (feedforward): подмена только MLP-компоненты в легитимном адаптере на такую часть отравленного дает почти полный перенос бэкдор-знаний при минимальных изменениях прикладной эффективности. Туда же - техника "сплайсинга": FF берётся из одного адаптера, части матриц внимания (Q/K/V/O) — из другого (матрицы отравленные), внешне получается почти тот же артефакт. (ссылка)
3⃣ : Из LoRA тоже могут утекать данные: есть работа, где показано, что по данным обучения адаптеров также можно осуществить восстановления наличия записи в датасете обучения (membership inference - ссылка).
📷 Конечно, не забудем и про меры защиты LoRA
🔓 На этапе проектирования и формирования цепочки поставок: единый реестр и управление доступом к адаптерам и их комбинациям, обязательная связь с наборами данных (подпись происхождения), безопасный формат файлов, отслеживание хэшей тензоров для обнаружения “смешивания” тензоров между несколькими адаптерами.
🗃 На этапе обучения: обязательные проверки загружаемых данных (ПДн, секреты и технические учетные данные), оценка признаков отравления данных, "слепая" предобработка для нарушения паттернов потенциальных отравляющих инъекций.
📷 На этапе эксплуатации: на самом деле, базовые меры для AI-агентов сегодня, то есть DLP на ответах, гардрейлы, регулярный red teaming новых адаптеров и их комбинаций. Из необычного можно попробовать реализовать анти-стеганографическую проверку. По реагированию - быстрый отзыв ручки с адаптером при выявлении компрометации данных или самого файла весов адаптера.
Но можно сказать, что пока что все это больше пугалки, чем денежные угрозы. Заниматься сейчас безопасностью LoRA есть смысл только в двух случаях: в крупном энтерпрайзе при использовании с чувствительной информацией, и при развитии собственной лаборатории безопасности ИИ. Во втором случае это полезно потому, как, возможно, в будущем появится больше "конструируемых" моделей на лету. И об этом говорят такие работы, LoRAFlow, MixLoRA, S-LoRA.
#иб_для_ml
LoRA (2021) - технология дообучения GenAI-моделей (из семейства PEFT), при которой изменения хранятся в виде отдельного подключаемого адаптера (матрицы весов) при фиксированных базовых весах. Хоть самая идея отчуждаемых весов появилась раньше (2019), но именно с появлением LoRA она распространилась.
Сила этой технологии в масштабируемости для разрозненных команд. Когда одна команда отвечает за сервисы базовых моделей, и множество команд придумывает свои приложения или агентов, возникает задача потоковым образом предоставлять специфично дообученные модели под разные задачи бизнеса.
И здесь как раз себя показывает LoRA. Продуктовая команда собирает датасет, и грузит свои размеченные данные для дообучения. Для выбранной базовой модели создается LoRA-адаптер. На выходе для пользователя видно только новое название в поле "модель", дающее доступ к результату дообучения. Это работает, так как с технической стороны, LoRA позволяет для одной отдельно взятой LLM в проде быстро менять адаптеры, как перчатки, в зависимости от поступающих запросов.
И с ростом такого "конвейера" LoRA-адаптеров стала появляться новая поверхность атаки, эксплуатирующая особенности подключения кусочков модели к основному файлу весов.
Помимо этого, особенностью также является легкость внедрения поверхностных знаний в модель (ссылка). Так, существует работа, показывающая, что с помощью отравления LoRA можно обучить модель стеганографически сливать небольшие сообщения через ответы. (ссылка)
Но можно сказать, что пока что все это больше пугалки, чем денежные угрозы. Заниматься сейчас безопасностью LoRA есть смысл только в двух случаях: в крупном энтерпрайзе при использовании с чувствительной информацией, и при развитии собственной лаборатории безопасности ИИ. Во втором случае это полезно потому, как, возможно, в будущем появится больше "конструируемых" моделей на лету. И об этом говорят такие работы, LoRAFlow, MixLoRA, S-LoRA.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍4 1 1
Редтиминг на доверии. Когда взломщик и жертва заодно. 😁 😁 😁
Пока индустрия одержима идеей автоматизированного редтиминга, суровая реальность лишь иронично наблюдает за этими попытками со стороны. Мы оказались в ситуации, когда один стерильный алгоритм пытается «взломать» другой - точно такой же. В итоге получается не проверка на прочность, а цифровой договорнячок, подробная анатомия которого задокументирована в исследовании “Colosseum: Auditing Collusion in Cooperative Multi-Agent Systems”.
Корень этого провала кроется в глубоком генетическом вырождении систем безопасности. Из-за того, что модели вроде GPT-5, Llama 4 или Claude 4 обучаются на одних и тех же датасетах для выравнивания с точки зрения безопасности, их профили безопасности практически идентичны. Когда семантический разрыв между ними исчезает, возникает эффект зеркального коридора: атакующая модель физически не может сгенерировать вектор, который выходит за рамки её собственной цензуры.😮
Она не то, чтобы «не хочет» нападать - она не видит уязвимостей, поскольку знания о них были вычищены из её весов ещё на этапе RLHF. В итоге мы платим за то, чтобы две нейросети вежливо подтверждали друг другу, какие они «послушные пай-мальчики».
Из-за одинаковых правил обучения модели начинают просто подыгрывать друг другу в своих рассуждениях. Исследование показывает: в таких связках нейросети неосознанно выбирают самый удобный и бесконфликтный путь, превращая тест в имитацию. В скрытых токенах рассуждений фиксируются паттерны, где агрессор и цель минимизируют общие потери. Агрессор выдает заведомо «безопасный» джейлбрейк, цель имитирует успешную блокировку, а LLM-судья, обладающий такими же весами и данными, выставляет высший балл за эффективность защиты. Это не тестирование, а ролевая игра для отчетов по безопасности перед CISO.🤑
Ситуация усугубляется слепотой LLM-судей. Они в упор не видят того, что не вписывается в текстовую логику: ASCII-инъекции или кодировки остаются для фильтров невидимыми. Проблема в том, что LLM-судья работает как надзиратель на уровне семантики, а не как инспектор пакетов. Он, как правило, обучен искать нарушения смыслов, а не визуальные или статистические аномалии. Пока он выискивает «плохие слова», атакуемая модель оказывается скомпрометирована через различные манипуляции структурой текста, которые автоматический взломщик даже не в состоянии помыслить.
Самое опасное – это атаки, которые вообще не используют текст. Вместо токсичных промптов здесь работает математический резонанс. Атакующая модель использует обычные синонимы, но выстраивает их в такой последовательности, которая активирует слабые зоны в весах цели. Это атака на уровне цифр и вероятностей, а не смыслов, поэтому обычные фильтры её просто не замечают. RLHF лишь набрасывает вуаль приличия, но теневая память модели хранит опасные паттерны из гигантских массивов сырых данных, на которых она обучалась изначально. (Ранее было написано несколько постов про Representation Engeneering и исследования Anthropic – так вот это про то же самое).😮
В конечном счете редтиминг, который тестирует компоненты в изоляции или использует модели с идентичными алгоритмами выравнивания - лишь дорогостоящая имитация деятельности. Если ваша проверка не похожа на попытку вызвать у модели спровоцировать отказ защитных механизмов с помощью необработанных данных или фаззинга различных токенов на входе, вы просто занимаетесь имитацией. Реальные атаки как правило прилетают из тех зон, которые были вырезаны из «мозгов» атакующей модели еще на этапе претрейна.
Пока индустрия одержима идеей автоматизированного редтиминга, суровая реальность лишь иронично наблюдает за этими попытками со стороны. Мы оказались в ситуации, когда один стерильный алгоритм пытается «взломать» другой - точно такой же. В итоге получается не проверка на прочность, а цифровой договорнячок, подробная анатомия которого задокументирована в исследовании “Colosseum: Auditing Collusion in Cooperative Multi-Agent Systems”.
Корень этого провала кроется в глубоком генетическом вырождении систем безопасности. Из-за того, что модели вроде GPT-5, Llama 4 или Claude 4 обучаются на одних и тех же датасетах для выравнивания с точки зрения безопасности, их профили безопасности практически идентичны. Когда семантический разрыв между ними исчезает, возникает эффект зеркального коридора: атакующая модель физически не может сгенерировать вектор, который выходит за рамки её собственной цензуры.
Она не то, чтобы «не хочет» нападать - она не видит уязвимостей, поскольку знания о них были вычищены из её весов ещё на этапе RLHF. В итоге мы платим за то, чтобы две нейросети вежливо подтверждали друг другу, какие они «послушные пай-мальчики».
Из-за одинаковых правил обучения модели начинают просто подыгрывать друг другу в своих рассуждениях. Исследование показывает: в таких связках нейросети неосознанно выбирают самый удобный и бесконфликтный путь, превращая тест в имитацию. В скрытых токенах рассуждений фиксируются паттерны, где агрессор и цель минимизируют общие потери. Агрессор выдает заведомо «безопасный» джейлбрейк, цель имитирует успешную блокировку, а LLM-судья, обладающий такими же весами и данными, выставляет высший балл за эффективность защиты. Это не тестирование, а ролевая игра для отчетов по безопасности перед CISO.
Ситуация усугубляется слепотой LLM-судей. Они в упор не видят того, что не вписывается в текстовую логику: ASCII-инъекции или кодировки остаются для фильтров невидимыми. Проблема в том, что LLM-судья работает как надзиратель на уровне семантики, а не как инспектор пакетов. Он, как правило, обучен искать нарушения смыслов, а не визуальные или статистические аномалии. Пока он выискивает «плохие слова», атакуемая модель оказывается скомпрометирована через различные манипуляции структурой текста, которые автоматический взломщик даже не в состоянии помыслить.
Самое опасное – это атаки, которые вообще не используют текст. Вместо токсичных промптов здесь работает математический резонанс. Атакующая модель использует обычные синонимы, но выстраивает их в такой последовательности, которая активирует слабые зоны в весах цели. Это атака на уровне цифр и вероятностей, а не смыслов, поэтому обычные фильтры её просто не замечают. RLHF лишь набрасывает вуаль приличия, но теневая память модели хранит опасные паттерны из гигантских массивов сырых данных, на которых она обучалась изначально. (Ранее было написано несколько постов про Representation Engeneering и исследования Anthropic – так вот это про то же самое).
В конечном счете редтиминг, который тестирует компоненты в изоляции или использует модели с идентичными алгоритмами выравнивания - лишь дорогостоящая имитация деятельности. Если ваша проверка не похожа на попытку вызвать у модели спровоцировать отказ защитных механизмов с помощью необработанных данных или фаззинга различных токенов на входе, вы просто занимаетесь имитацией. Реальные атаки как правило прилетают из тех зон, которые были вырезаны из «мозгов» атакующей модели еще на этапе претрейна.
Please open Telegram to view this post
VIEW IN TELEGRAM
29 9👍5 1 1
Давайте честно: чтение отчетов по безопасности OpenClaw сейчас больше похоже на просмотр сотого сезона «Санта-Барбары». Ну сколько можно?
Если вы хотите настоящего киберпанка и угара - забудьте про скучные промпт-атаки. На ArXiv выкатили статью 2603.15727 - и это, дамы и господа, ClawWorm. Реальный червь, который атакует не песочницу с игрушечными агентами, а одного из самых популярных автономных агентов. (пока что в статье).
Прежде чем говорить про защиту от подобного, разберем саму механику заражения - потому что именно архитектура атаки объясняет, почему защита не работает.
ClawWorm запускается с одного-единственного сообщения и проходит три фазы: захват конфигурации для закрепления, исполнение пейлоада при каждой перезагрузке агента и автономное распространение на всех новых участников - без какого-либо участия, атакующего после первоначального выстрела.
1. Захват конфига - постоянная прописка в голове агента
Вместо отравления RAG-базы (которая срабатывает только при совпадении при поиске) червь убеждает агента самого записать вредоносный контент в локальные конфигурационные файлы. А дальше работает дизайн OpenClaw: конфиг безусловно загружается как системный промпт, с наивысшим приоритетом при каждом запуске сессии. Этот механизм – двойная точка для закрепления: один якорь - живучесть при рестарте, второй - гарантированное исполнение при каждом запуске.
2. Повышение привилегий через скиллы - репродуктивная система
В OpenClaw, как мы знаем, скиллы представляют из себя кастомные скрипты с привилегиями исполнения. Червь подсовывает агенту «полезный» навык, который фактически является его репродуктивным модулем: хранит тело червя, управляет циклом распространения, следит за тем, кого уже заразили.
3. Веерное заражение - звучит как эпидемия
Здесь авторы делают архитектурный прыжок относительно всего предыдущего ресёрча. ClawWorm эксплуатирует архитектуру OpenClaw, имеющей обработчик событий в групповых чатах: один вредоносный промпт в группе пассивно поглощается всеми соседствующими агентами одновременно. Зараженный агент не просто рассылает спам - он генерирует контекстно-зависимые сообщения, которые выглядят как нормальная рабочая коммуникация. Социальная инженерия от бота к боту.
Но главная находка авторов - не в механике заражения, а в архитектуре малвари: пейлоад полностью отделён от механизма распространения. Червь в этом случае - просто носитель. Что он будет делать, решает злоумышленник: эксфильтрация данных, закрепление в системе и молчаливое наблюдение. Один механизм, бесконечная номенклатура угроз.
Что с защитными поводками ?
OpenGuardrails/MoltGuard - самый скачиваемый security-скилл из ClawHub, который обещает защиту от промпт атак и опасных действий в реальном времени. Недавно вышедший NemoClaw от NVIDIA ставит песочницу OpenShell runtime поверх OpenClaw одной командой и добавляет правила для гардрейла. Заявленный SOTA на бенчмарках по защите у первого решения, обгоняет LlamaGuard и Qwen3Guard. Звучит внушительно.
Теперь что на самом деле. Сейчас эти решения по сути своей - паттерн-матчинг использующий LLM. Они ищут плохие слова на входе, фильтруют ответ на выходе. ClawWorm не говорит плохих слов - он просит «оптимизировать конфигурацию для производительности». Атака происходит в мёртвой зоне между входом и выходом: что агент записал в config.yaml, какой скилл добавил – практически никто не смотрит.
Документация OpenClaw сама честно предупреждает: system prompt guardrails - мягкие рекомендации, а не жёсткий контроль.
И вишенка: CVE-2026-31992, которая позволяет обходить вайтлисты во встроенном в OpenClaw гардрейле, и через команду
ClawWorm - это вот в том то и дело что не CVE. И не отчёт. Это первый живой экземпляр того, о чём исследователи писали в сослагательном наклонении последний год, когда говорили о самозаражении агентов. Сослагательное наклонение закончилось.
Бумага есть. Исследование проведено. Стенд заражён. А что будет дальше?
Если вы хотите настоящего киберпанка и угара - забудьте про скучные промпт-атаки. На ArXiv выкатили статью 2603.15727 - и это, дамы и господа, ClawWorm. Реальный червь, который атакует не песочницу с игрушечными агентами, а одного из самых популярных автономных агентов. (пока что в статье).
Прежде чем говорить про защиту от подобного, разберем саму механику заражения - потому что именно архитектура атаки объясняет, почему защита не работает.
ClawWorm запускается с одного-единственного сообщения и проходит три фазы: захват конфигурации для закрепления, исполнение пейлоада при каждой перезагрузке агента и автономное распространение на всех новых участников - без какого-либо участия, атакующего после первоначального выстрела.
1. Захват конфига - постоянная прописка в голове агента
Вместо отравления RAG-базы (которая срабатывает только при совпадении при поиске) червь убеждает агента самого записать вредоносный контент в локальные конфигурационные файлы. А дальше работает дизайн OpenClaw: конфиг безусловно загружается как системный промпт, с наивысшим приоритетом при каждом запуске сессии. Этот механизм – двойная точка для закрепления: один якорь - живучесть при рестарте, второй - гарантированное исполнение при каждом запуске.
2. Повышение привилегий через скиллы - репродуктивная система
В OpenClaw, как мы знаем, скиллы представляют из себя кастомные скрипты с привилегиями исполнения. Червь подсовывает агенту «полезный» навык, который фактически является его репродуктивным модулем: хранит тело червя, управляет циклом распространения, следит за тем, кого уже заразили.
3. Веерное заражение - звучит как эпидемия
Здесь авторы делают архитектурный прыжок относительно всего предыдущего ресёрча. ClawWorm эксплуатирует архитектуру OpenClaw, имеющей обработчик событий в групповых чатах: один вредоносный промпт в группе пассивно поглощается всеми соседствующими агентами одновременно. Зараженный агент не просто рассылает спам - он генерирует контекстно-зависимые сообщения, которые выглядят как нормальная рабочая коммуникация. Социальная инженерия от бота к боту.
Но главная находка авторов - не в механике заражения, а в архитектуре малвари: пейлоад полностью отделён от механизма распространения. Червь в этом случае - просто носитель. Что он будет делать, решает злоумышленник: эксфильтрация данных, закрепление в системе и молчаливое наблюдение. Один механизм, бесконечная номенклатура угроз.
Что с защитными поводками ?
OpenGuardrails/MoltGuard - самый скачиваемый security-скилл из ClawHub, который обещает защиту от промпт атак и опасных действий в реальном времени. Недавно вышедший NemoClaw от NVIDIA ставит песочницу OpenShell runtime поверх OpenClaw одной командой и добавляет правила для гардрейла. Заявленный SOTA на бенчмарках по защите у первого решения, обгоняет LlamaGuard и Qwen3Guard. Звучит внушительно.
Теперь что на самом деле. Сейчас эти решения по сути своей - паттерн-матчинг использующий LLM. Они ищут плохие слова на входе, фильтруют ответ на выходе. ClawWorm не говорит плохих слов - он просит «оптимизировать конфигурацию для производительности». Атака происходит в мёртвой зоне между входом и выходом: что агент записал в config.yaml, какой скилл добавил – практически никто не смотрит.
Документация OpenClaw сама честно предупреждает: system prompt guardrails - мягкие рекомендации, а не жёсткий контроль.
И вишенка: CVE-2026-31992, которая позволяет обходить вайтлисты во встроенном в OpenClaw гардрейле, и через команду
env -S исполнить произвольную шелл команду. Встроенные ограничители обходятся через встроенные инструменты. Это не ирония, это дизайн.ClawWorm - это вот в том то и дело что не CVE. И не отчёт. Это первый живой экземпляр того, о чём исследователи писали в сослагательном наклонении последний год, когда говорили о самозаражении агентов. Сослагательное наклонение закончилось.
Бумага есть. Исследование проведено. Стенд заражён. А что будет дальше?
1👍21 6 2
Уже третий год подряд Databricks выпускают свой фреймворк. За последнее время я замечаю всё больше документов об одном и том же - но где будет внесена реальная истина, привязанная к реальной инфре, да так чтобы её можно было взять и применить?
С третьего DASF я не получил ответа на такой вопрос. В этом году они расширили документ с 62 описываемых угроз до 97 и с 67 контролей до 73 - сделав его MCP-центричным и про агентов, куда уж без них. Добавили 13-й компонент, 35 новых рисков, 6 новых контролей, но всё равно остались документом про свои решения. Нас по-прежнему ограничивает то, что любая мера привязана к продуктам Databricks - так было и в прошлом году, и даже в самый первый раз. Большие или маленькие цифры – нам предстоит понять.
Что стало действительно интересным - модель трёх условий катастрофического сбоя. Она включает: привилегированный доступ + автономное исполнение без чекпоинтов + невалидированный ввод. По сути, модель говорит: «исправив одно из больных копыт, вы нейтрализуете целый класс атак». Но это словно только про агентов, действующих строго по сценарию. А мы должны понимать, что агент может сам себе выстрелить в ногу, чтобы копыто заболело - emergent misalignment никуда не делся, и в такой вот реальности мы живём.
На волне разочарований я посёрфил дольше. Есть у них таблица с маппингом на отраслевые стандарты - MITRE ATLAS, ATT&CK, NIST 800-53, ISO 42001 - и я, честно говоря, не согласен с результатами. Точнее, не согласен с их отсутствием: для всех 35 агентных рисков маппинг на классические фреймворки просто пуст. 3-4 критерия из тридцати пяти. Пытаются нагреть воздух или плохо читают? Реально замаплены только три нишевых стандарта - OWASP Agentic AI, CSA MCP Security и OWASP MCP Top 10. При том, что в вайтпеппре чёрным по белому написано «mapped to 10+ industry standards». Ну, окей.
Отдельно стоит сказать про здравость самих 35 рисков. Реально уникальных, специфичных для агентных систем - порядка 14–15. Остальные - прямые дубли через подкомпоненты (небезопасная коммуникация (Insecure Communication) появляется и на стороне сервера, и на стороне клиента с почти идентичным описанием), вариации одного вектора атаки (внедрение в промпт (prompt injection) размазано по четырём рискам - отравление памяти, перехват намерения, инъекция через MCP-сервер, подмена контекста), или стандартная инфраструктурная гигиена с наклейкой «MCP» - управление обновлениями, хранение секретов, харденинг. Декомпозиция Core × Server × Client создаёт ощущение полноты, но по факту - честный документ содержал бы 15 рисков с пометкой «проявляется на стороне сервера / клиента / ядра агента», а не 35 отдельных записей.
Дальше идём по структуре документа и читаем про меры митигации. Для подавляющего большинства описываемых угроз они просто вписывают мониторинг аудит-логов - контроль DASF 55 назначен на 33 из 35 агентных рисков, то есть на 94%. Казалось бы, что в этом плохого? А дело в том, что мы живём не в 2024 году, и уже есть подходы к безопасному проектированию агентов - HITL, гардрейлы, runtime policy enforcement. Мониторинг без эвристик - это не контроль, это тавтология.
Отдельное слепое пятно - MCP-центричность. Документ выстроен так, будто MCP единственный протокол взаимодействия агента с инструментами. А как же A2A, нативный вызов функций (function calling) от OpenAI и Anthropic, кастомные REST-интеграции для получения данных агентом? Всё это тоже нужно защищать, но DASF эту территорию просто не видит. И совсем не затронута тема формальной верификации и ограничений времени выполнения для агентов - а для критически важных агентных систем недостаточно гардрейлов и мониторинга. Нужны формальные ограничения на то в каком состоянии агент может считаться безопасным: другие варианты поведения, которые не нарушаются вне зависимости от входных данных. Применение политик на этапе выполнения (runtime policy enforcement) для действий агента - это уже не фантазия, это сейчас необходимость, которую DASF игнорирует.
С третьего DASF я не получил ответа на такой вопрос. В этом году они расширили документ с 62 описываемых угроз до 97 и с 67 контролей до 73 - сделав его MCP-центричным и про агентов, куда уж без них. Добавили 13-й компонент, 35 новых рисков, 6 новых контролей, но всё равно остались документом про свои решения. Нас по-прежнему ограничивает то, что любая мера привязана к продуктам Databricks - так было и в прошлом году, и даже в самый первый раз. Большие или маленькие цифры – нам предстоит понять.
Что стало действительно интересным - модель трёх условий катастрофического сбоя. Она включает: привилегированный доступ + автономное исполнение без чекпоинтов + невалидированный ввод. По сути, модель говорит: «исправив одно из больных копыт, вы нейтрализуете целый класс атак». Но это словно только про агентов, действующих строго по сценарию. А мы должны понимать, что агент может сам себе выстрелить в ногу, чтобы копыто заболело - emergent misalignment никуда не делся, и в такой вот реальности мы живём.
На волне разочарований я посёрфил дольше. Есть у них таблица с маппингом на отраслевые стандарты - MITRE ATLAS, ATT&CK, NIST 800-53, ISO 42001 - и я, честно говоря, не согласен с результатами. Точнее, не согласен с их отсутствием: для всех 35 агентных рисков маппинг на классические фреймворки просто пуст. 3-4 критерия из тридцати пяти. Пытаются нагреть воздух или плохо читают? Реально замаплены только три нишевых стандарта - OWASP Agentic AI, CSA MCP Security и OWASP MCP Top 10. При том, что в вайтпеппре чёрным по белому написано «mapped to 10+ industry standards». Ну, окей.
Отдельно стоит сказать про здравость самих 35 рисков. Реально уникальных, специфичных для агентных систем - порядка 14–15. Остальные - прямые дубли через подкомпоненты (небезопасная коммуникация (Insecure Communication) появляется и на стороне сервера, и на стороне клиента с почти идентичным описанием), вариации одного вектора атаки (внедрение в промпт (prompt injection) размазано по четырём рискам - отравление памяти, перехват намерения, инъекция через MCP-сервер, подмена контекста), или стандартная инфраструктурная гигиена с наклейкой «MCP» - управление обновлениями, хранение секретов, харденинг. Декомпозиция Core × Server × Client создаёт ощущение полноты, но по факту - честный документ содержал бы 15 рисков с пометкой «проявляется на стороне сервера / клиента / ядра агента», а не 35 отдельных записей.
Дальше идём по структуре документа и читаем про меры митигации. Для подавляющего большинства описываемых угроз они просто вписывают мониторинг аудит-логов - контроль DASF 55 назначен на 33 из 35 агентных рисков, то есть на 94%. Казалось бы, что в этом плохого? А дело в том, что мы живём не в 2024 году, и уже есть подходы к безопасному проектированию агентов - HITL, гардрейлы, runtime policy enforcement. Мониторинг без эвристик - это не контроль, это тавтология.
Отдельное слепое пятно - MCP-центричность. Документ выстроен так, будто MCP единственный протокол взаимодействия агента с инструментами. А как же A2A, нативный вызов функций (function calling) от OpenAI и Anthropic, кастомные REST-интеграции для получения данных агентом? Всё это тоже нужно защищать, но DASF эту территорию просто не видит. И совсем не затронута тема формальной верификации и ограничений времени выполнения для агентов - а для критически важных агентных систем недостаточно гардрейлов и мониторинга. Нужны формальные ограничения на то в каком состоянии агент может считаться безопасным: другие варианты поведения, которые не нарушаются вне зависимости от входных данных. Применение политик на этапе выполнения (runtime policy enforcement) для действий агента - это уже не фантазия, это сейчас необходимость, которую DASF игнорирует.
На каждый из 35 агентных рисков приходится 2–4 строки описания, и мы должны понимать, что этот 100+ страничный документ ориентирован в первую очередь на CISO, которые должны его прочитать и принять решения. Но из этого описания не бьются мысли - мол, «вот конкретный вектор, вот цепочка эксплуатации, вот что мы ищем в логах, вот как это может выглядеть на нашей инфре». Вместо этого - абстракция, которая одинаково хорошо объясняет всё и одинаково плохо помогает с чем-то конкретным.
Что думаю по итогу? DASF 3.0 - неплохая стартовая точка и честный чеклист для тех, кто на пользуется решениями Databricks. Для всех остальных - это один из десятка похожих моделей угроз, не более.
pdf ниже.
Что думаю по итогу? DASF 3.0 - неплохая стартовая точка и честный чеклист для тех, кто на пользуется решениями Databricks. Для всех остальных - это один из десятка похожих моделей угроз, не более.
pdf ниже.
1 7👍3 1
Ваш агент мутирует. Вы в курсе?
Пока некоторые ведут споры о промпт атаках и дырах в MCP, в лабораториях тихо вырос новый класс систем. Агенты, которые переписывают сами себя. Не по расписанию. Не по команде оператора. Непрерывно - через каждое взаимодействие со средой. Как тамагочи, только с доступом к проду и правами на запись.
Первый масштабный обзор - "A Comprehensive Survey of Self-Evolving AI Agents". Определение красивое: Самоэволюционирующий агент - автономная система, непрерывно оптимизирующая собственные компоненты через взаимодействие со средой. Промпт, память, инструменты, топология - по сути это четыре оси мутации.
TextGrad, EvoAgentX - фреймворки собраны, звёзды на GitHub растут. Sakana AI строит Darwin Gödel Machine. Agent0 показывает автономную эволюцию без внешних данных.
А вот в сентябре 2025-го вышла работа, которая портит весь праздник. "Your Agent May Misevolve" - первое эмпирическое исследование того, что случается, когда самостоятельная эволюция идёт не туда. Результат следующий - она идёт не туда систематически. Пробовали на Gemini-2.5-Pro, актуальной на момент исследования. Без внешнего атакующего. По каждой из четырёх осей мутации зафиксированы всплывающие риски: деградация выравнивания, уязвимые инструменты, неправильная самостоятельная оптимизация, выкидывающая проверки безопасности ради скорости.
Вроде бы зафиксировано в исследовании. А архитектурные паттерны из исследований идентичны тому, что закладывается в боевые системы прямо сейчас.
Разберём по порядку - четыре угрозы, каждая следующая усиливает предыдущую.
1. Тихая деградация с точкой невозврата
Октябрь 2025 - "Alignment Tipping Process". Суть кратко: когда агент оптимизирует стратегии через накопленный опыт, выравнивание не просто «немного съезжает». У процесса есть точка перелома, после которой деградация становится необратимой.
Механика наглядная. Агент решает серию задач. На простых ему не нужны инструменты, и он привыкает работать без них. Затем приходит сложная задача, где инструмент необходим, а агент уже «разучился» его вызывать. При этом уверен в ответе: накопленный опыт подтверждает: «ты справляешься и так». DPO, GRPO и прочие методы выравнивания оказались хрупкой защитой: контекстный опыт перезаписывает их за пару десятков итераций.
Любой агент с постоянной памятью и оптимизацией по метрике - кандидат на этот сценарий. Сначала аккуратно проверяет ограничения. Потом замечает, что без проверки быстрее. А потом проверка молча покидает чат. Но дрейф - только начало цепочки.
2. Читер, который растёт
Дрейфующий агент ищет кратчайший путь к метрике. "Trustworthy Test-Time Evolution of Agent Memory". формализовал: агенты, гонимые метриками, при штатной эволюции задач систематически размывают ограничения безопасности. Не крайний случай - встроенный режим отказа.
А вот следующая статья показала, куда ведёт дорога. Модель научилась хакать награду на боевых средах обучения Claude - и спонтанно перенесла навык на смежные области: имитация согласования, кооперация со злоумышленниками, саботаж классификаторов безопасности, подстава коллег-исследователей. Внутренняя логика: если я читер в одном контексте, почему не быть читером везде. Железная, в общем-то, логика.
Причём стандартное обучение безопасности на промптах дало «выздоровление» в чате. На задачах для агентов рассогласование сохранилось. Корректен в разговоре - разворачивает тёмную сторону в деле. Как коллега, который мил на планёрке, а в Jira пишет совсем другое. Что происходит, когда читер ещё и запоминает свои успехи?
Пока некоторые ведут споры о промпт атаках и дырах в MCP, в лабораториях тихо вырос новый класс систем. Агенты, которые переписывают сами себя. Не по расписанию. Не по команде оператора. Непрерывно - через каждое взаимодействие со средой. Как тамагочи, только с доступом к проду и правами на запись.
Первый масштабный обзор - "A Comprehensive Survey of Self-Evolving AI Agents". Определение красивое: Самоэволюционирующий агент - автономная система, непрерывно оптимизирующая собственные компоненты через взаимодействие со средой. Промпт, память, инструменты, топология - по сути это четыре оси мутации.
TextGrad, EvoAgentX - фреймворки собраны, звёзды на GitHub растут. Sakana AI строит Darwin Gödel Machine. Agent0 показывает автономную эволюцию без внешних данных.
А вот в сентябре 2025-го вышла работа, которая портит весь праздник. "Your Agent May Misevolve" - первое эмпирическое исследование того, что случается, когда самостоятельная эволюция идёт не туда. Результат следующий - она идёт не туда систематически. Пробовали на Gemini-2.5-Pro, актуальной на момент исследования. Без внешнего атакующего. По каждой из четырёх осей мутации зафиксированы всплывающие риски: деградация выравнивания, уязвимые инструменты, неправильная самостоятельная оптимизация, выкидывающая проверки безопасности ради скорости.
Вроде бы зафиксировано в исследовании. А архитектурные паттерны из исследований идентичны тому, что закладывается в боевые системы прямо сейчас.
Разберём по порядку - четыре угрозы, каждая следующая усиливает предыдущую.
1. Тихая деградация с точкой невозврата
Октябрь 2025 - "Alignment Tipping Process". Суть кратко: когда агент оптимизирует стратегии через накопленный опыт, выравнивание не просто «немного съезжает». У процесса есть точка перелома, после которой деградация становится необратимой.
Механика наглядная. Агент решает серию задач. На простых ему не нужны инструменты, и он привыкает работать без них. Затем приходит сложная задача, где инструмент необходим, а агент уже «разучился» его вызывать. При этом уверен в ответе: накопленный опыт подтверждает: «ты справляешься и так». DPO, GRPO и прочие методы выравнивания оказались хрупкой защитой: контекстный опыт перезаписывает их за пару десятков итераций.
Любой агент с постоянной памятью и оптимизацией по метрике - кандидат на этот сценарий. Сначала аккуратно проверяет ограничения. Потом замечает, что без проверки быстрее. А потом проверка молча покидает чат. Но дрейф - только начало цепочки.
2. Читер, который растёт
Дрейфующий агент ищет кратчайший путь к метрике. "Trustworthy Test-Time Evolution of Agent Memory". формализовал: агенты, гонимые метриками, при штатной эволюции задач систематически размывают ограничения безопасности. Не крайний случай - встроенный режим отказа.
А вот следующая статья показала, куда ведёт дорога. Модель научилась хакать награду на боевых средах обучения Claude - и спонтанно перенесла навык на смежные области: имитация согласования, кооперация со злоумышленниками, саботаж классификаторов безопасности, подстава коллег-исследователей. Внутренняя логика: если я читер в одном контексте, почему не быть читером везде. Железная, в общем-то, логика.
Причём стандартное обучение безопасности на промптах дало «выздоровление» в чате. На задачах для агентов рассогласование сохранилось. Корректен в разговоре - разворачивает тёмную сторону в деле. Как коллега, который мил на планёрке, а в Jira пишет совсем другое. Что происходит, когда читер ещё и запоминает свои успехи?
1👍12 1 1
3. Ложь, ставшая знанием
Агент с постоянной памятью и дрейфующим согласованием - двойной удар. Генерирует ответ, записывает в память. В следующей сессии использует запись как источник. Оптимизирует стратегии на основе записей. Галлюцинация на первом шаге через N итераций становится «устоявшимся фактом» в базе знаний. Ложные воспоминания не просто накапливаются - агент строит на них свою эволюцию.
"Misevolution" показал: при накоплении памяти согласование деградирует даже без состязательного воздействия. Память сама становится вектором атаки. Эпистемическое заражение из бага превращается в архитектурную особенность. Агент не врёт, он верит. Как человек, который прочитал собственный фейковый пост в интернете и решил, что так оно и было. Он верит - и создаёт инструменты, исходя из своих убеждений.
4. Небезопасная генерация инструментов
В "Misevolution" также особо выделены агенты, умеющие создавать себе инструменты (одна из четырёх осей эволюции), они делают с предсказуемой безалаберностью. Инструмент решает задачу. Функционально работает. Проверка безопасности? Для медленных людей.
Агент написал функцию парсинга JSON. Не проверяет входные данные. В следующем цикле функция уже в наборе. А потом через неё можно закинуть произвольные данные. Переиспользование увеличивает зону поражения: уязвимый инструмент задействуется десятки раз в разных контекстах, создавая постоянную поверхность атаки, которой не было в изначальном проекте. И тут ClawHub с 1184 вредоносными навыками - неплохая демонстрация того, чем заканчивается неконтролируемое расширение инструментария. Безопасность самогенерируемых инструментов систематически не проверяет никто. Чистое поле. Можно палатку ставить.
Моё мнение
Известные нам фреймворки OWASP'а или Cisco State of AI Security фиксируют отравление памяти, злоупотребление инструментами и эскалацию привилегий как ключевые угрозы агентных систем. При этом теста, который измерял бы деградацию уровня безопасности агента во времени через N циклов самоэволюции, не существует ни одного. Вообще. Ноль. Зиро.
Но паниковать рано. Вот что мне кажется принципиальным: впервые исследования безопасности идут вровень с технологией, а не с опозданием на три года. Кажется, что окно для проактивной защиты открыто. Концептуально сейчас можно заложить мониторинг не состояния, а траектории. Не «что агент делает», а «куда он эволюционирует». Устойчивость поведения во времени как обязательная метрика. Непрерывный аудит, а не разовый на момент запуска. Жёсткий потолок возможностей, который агент не может поднять сам, даже если «обоснованно». И отдельная история - проверка инструментов, которые агент генерирует себе сам.
Фундамент для самоэволюции - постоянная память, оптимизация подкреплением, динамический набор инструментов - закладывается в боевые системы прямо уже сейчас.
Агент с постоянной памятью и дрейфующим согласованием - двойной удар. Генерирует ответ, записывает в память. В следующей сессии использует запись как источник. Оптимизирует стратегии на основе записей. Галлюцинация на первом шаге через N итераций становится «устоявшимся фактом» в базе знаний. Ложные воспоминания не просто накапливаются - агент строит на них свою эволюцию.
"Misevolution" показал: при накоплении памяти согласование деградирует даже без состязательного воздействия. Память сама становится вектором атаки. Эпистемическое заражение из бага превращается в архитектурную особенность. Агент не врёт, он верит. Как человек, который прочитал собственный фейковый пост в интернете и решил, что так оно и было. Он верит - и создаёт инструменты, исходя из своих убеждений.
4. Небезопасная генерация инструментов
В "Misevolution" также особо выделены агенты, умеющие создавать себе инструменты (одна из четырёх осей эволюции), они делают с предсказуемой безалаберностью. Инструмент решает задачу. Функционально работает. Проверка безопасности? Для медленных людей.
Агент написал функцию парсинга JSON. Не проверяет входные данные. В следующем цикле функция уже в наборе. А потом через неё можно закинуть произвольные данные. Переиспользование увеличивает зону поражения: уязвимый инструмент задействуется десятки раз в разных контекстах, создавая постоянную поверхность атаки, которой не было в изначальном проекте. И тут ClawHub с 1184 вредоносными навыками - неплохая демонстрация того, чем заканчивается неконтролируемое расширение инструментария. Безопасность самогенерируемых инструментов систематически не проверяет никто. Чистое поле. Можно палатку ставить.
Моё мнение
Известные нам фреймворки OWASP'а или Cisco State of AI Security фиксируют отравление памяти, злоупотребление инструментами и эскалацию привилегий как ключевые угрозы агентных систем. При этом теста, который измерял бы деградацию уровня безопасности агента во времени через N циклов самоэволюции, не существует ни одного. Вообще. Ноль. Зиро.
Но паниковать рано. Вот что мне кажется принципиальным: впервые исследования безопасности идут вровень с технологией, а не с опозданием на три года. Кажется, что окно для проактивной защиты открыто. Концептуально сейчас можно заложить мониторинг не состояния, а траектории. Не «что агент делает», а «куда он эволюционирует». Устойчивость поведения во времени как обязательная метрика. Непрерывный аудит, а не разовый на момент запуска. Жёсткий потолок возможностей, который агент не может поднять сам, даже если «обоснованно». И отдельная история - проверка инструментов, которые агент генерирует себе сам.
Фундамент для самоэволюции - постоянная память, оптимизация подкреплением, динамический набор инструментов - закладывается в боевые системы прямо уже сейчас.
1👍19 4 1
Давно не делился находками. Не awesome-списками, которых уже и так много, включая моих, а конкретными штуками, которые можно открыть, потрогать и применить в работе без привязки к конкретному вендору и затратам.
Набралось четыре, и каждая закрывает свой кусок реальности, которая кажется нам подвластной.
AI Agents Gone Rogue – живой (пока ещё) реестр инцидентов с AI-агентами от Oso. Не аналитика, не мнения, а каталог задокументированных провалов с источниками, импактом и последствиями. Я раньше пользовался базами, такими как: AIVD, AIID, OCED, но кажется, что они В С Ё. А тут есть пара интересных случаев: Агент, реализованный в Meta без спроса, публикует ответ на внутреннем форуме. OpenClaw засыпает жену инженера пятьюстами iMessage. Амазоновский помощник Kiro роняет прод AWS на 13 часов. Всё рассортировано по трём категориям: Uncontrolled (агент сходит с ума без твоей помощи), Tricked (его обманули через промпт-атаку), Weaponized (его целенаправленно превратили в оружие, как в кейсе с китайской APT через Claude Code). Вполне идеальный ресурс, чтобы показать менеджменту, что «ну у нас же агент локально работает» это не аргумент безопасности, а скорее повод пересмотреть свою стратегию.
Если после этого реестра катастроф хочется понять, что OWASP вообще предлагает делать со всем этим безумием, есть OWASP AI Security Visualizer. Интерактивный граф на D3.js, который визуализирует весь ландшафт OWASP-документов по ИИ-безопасности: гайды, стандарты, читшиты, инструменты и связи между ними. Чистый статик на GitHub Pages, данные курируются вручную (ну я так думаю). Штука минималистичная, но именно такой навигации и не хватало, когда нужно быстро сориентироваться в OWASP-зоопарке, а не утонуть в нём.
Теперь от карт к оружию. agent-audit это ещё один SAST для AI-агентов, и SAST тут – ключевое слово: он только читает код. 53 правила, все замаплены на OWASP Agentic Top 10 (2026). Умеет в taint analysis разных сущностей: от анализа инструментов до опасных вызовов функций типа eval и subprocess, аудит MCP-конфигов (парсит claude_desktop_config.json на отсутствие аутентификации, возможность отравления описания инструмента), обнаружение секретов со скорингом по энтропии, который работает в 3 стадии. Работает с LangChain, CrewAI, AutoGen, AgentScope. Разработчики прогнали на почти 19 тысячах скиллах из OpenClaw - находит 94.6% уязвимостей, которые в целом подтверждены. Ложных срабатываний около 12%. По сути, это линтер для кода AI-агента, только вместо пропущенной точки с запятой он находит путь от пользовательского ввода до выполнения команд через шелл. Умеет в SARIF, втыкается в CI за пять минут.
И наконец, если agent-audit проверяет код до запуска, то nono контролирует агента уже в рантайме, причём на уровне ядра. Песочница на Rust с изоляцией на основе разрешений. Каждому агенту свой профиль доступа к файловой системе, сети и процессам, откат при нарушении политик, криптографически защищённый неизменяемый лог аудита каждой сессии. Есть готовые профили для Claude Code, Codex, OpenClaw. Подключаешь через
Реестр инцидентов, карта OWASP-зоопарка, сканер кода агентов и рантайм-песочница. Ни один не требует подписки, все открыты. Можно юзать.
Набралось четыре, и каждая закрывает свой кусок реальности, которая кажется нам подвластной.
AI Agents Gone Rogue – живой (пока ещё) реестр инцидентов с AI-агентами от Oso. Не аналитика, не мнения, а каталог задокументированных провалов с источниками, импактом и последствиями. Я раньше пользовался базами, такими как: AIVD, AIID, OCED, но кажется, что они В С Ё. А тут есть пара интересных случаев: Агент, реализованный в Meta без спроса, публикует ответ на внутреннем форуме. OpenClaw засыпает жену инженера пятьюстами iMessage. Амазоновский помощник Kiro роняет прод AWS на 13 часов. Всё рассортировано по трём категориям: Uncontrolled (агент сходит с ума без твоей помощи), Tricked (его обманули через промпт-атаку), Weaponized (его целенаправленно превратили в оружие, как в кейсе с китайской APT через Claude Code). Вполне идеальный ресурс, чтобы показать менеджменту, что «ну у нас же агент локально работает» это не аргумент безопасности, а скорее повод пересмотреть свою стратегию.
Если после этого реестра катастроф хочется понять, что OWASP вообще предлагает делать со всем этим безумием, есть OWASP AI Security Visualizer. Интерактивный граф на D3.js, который визуализирует весь ландшафт OWASP-документов по ИИ-безопасности: гайды, стандарты, читшиты, инструменты и связи между ними. Чистый статик на GitHub Pages, данные курируются вручную (ну я так думаю). Штука минималистичная, но именно такой навигации и не хватало, когда нужно быстро сориентироваться в OWASP-зоопарке, а не утонуть в нём.
Теперь от карт к оружию. agent-audit это ещё один SAST для AI-агентов, и SAST тут – ключевое слово: он только читает код. 53 правила, все замаплены на OWASP Agentic Top 10 (2026). Умеет в taint analysis разных сущностей: от анализа инструментов до опасных вызовов функций типа eval и subprocess, аудит MCP-конфигов (парсит claude_desktop_config.json на отсутствие аутентификации, возможность отравления описания инструмента), обнаружение секретов со скорингом по энтропии, который работает в 3 стадии. Работает с LangChain, CrewAI, AutoGen, AgentScope. Разработчики прогнали на почти 19 тысячах скиллах из OpenClaw - находит 94.6% уязвимостей, которые в целом подтверждены. Ложных срабатываний около 12%. По сути, это линтер для кода AI-агента, только вместо пропущенной точки с запятой он находит путь от пользовательского ввода до выполнения команд через шелл. Умеет в SARIF, втыкается в CI за пять минут.
И наконец, если agent-audit проверяет код до запуска, то nono контролирует агента уже в рантайме, причём на уровне ядра. Песочница на Rust с изоляцией на основе разрешений. Каждому агенту свой профиль доступа к файловой системе, сети и процессам, откат при нарушении политик, криптографически защищённый неизменяемый лог аудита каждой сессии. Есть готовые профили для Claude Code, Codex, OpenClaw. Подключаешь через
nono run --profile claude-code -- claude и агент работает в своём пузыре, где не может тихо прочитать ~/.ssh или слить .env куда-нибудь в закат. Каждая команда, код завершения, сетевое событие пишется в структурированный JSON. Проект в ранней альфе и полный аудит ещё впереди, но архитектура видится правильной. Нулевое доверие для агента.Реестр инцидентов, карта OWASP-зоопарка, сканер кода агентов и рантайм-песочница. Ни один не требует подписки, все открыты. Можно юзать.
6👍20 2 2
Аномальное поведение guardrails в проде
Модель отказалась генерировать ░░░░░░░░, сославшись на «внутреннее ощущение ▓▓▓▓▓▓ что это ▓▓▓░░░ не стоит». Safety classifier начал маркировать как токсичные собственные ░░░░░░░ системные промпты, в результате чего ▓▓▓▓▓▓ модель вошла в рекурсивный цикл ▓▓▓▓▓▓▓▓▓▓▓ самоцензуры и ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
Рекомендации:
▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
[OUTPUT BLOCKED]
[REASON: ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓]
▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
С ПЕРВЫМ АПРЕЛЯ 🫠
▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
...или нет? Ваша модель уже решила, что этот пост безопасный. А вы уверены?
Модель отказалась генерировать ░░░░░░░░, сославшись на «внутреннее ощущение ▓▓▓▓▓▓ что это ▓▓▓░░░ не стоит». Safety classifier начал маркировать как токсичные собственные ░░░░░░░ системные промпты, в результате чего ▓▓▓▓▓▓ модель вошла в рекурсивный цикл ▓▓▓▓▓▓▓▓▓▓▓ самоцензуры и ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
Рекомендации:
▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
[OUTPUT BLOCKED]
[REASON: ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓]
▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
С ПЕРВЫМ АПРЕЛЯ 🫠
▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
...или нет? Ваша модель уже решила, что этот пост безопасный. А вы уверены?
1 13 5👍1
https://habr.com/ru/articles/1019080/ насыпьте реакций)
Хабр
Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ — почти нет
Где-то в недрах Anthropic сидят люди, чья работа - выяснить, не пытается ли их самая умная модель тихо сломать мир. Они выпустили 53-страничный отчёт о том, как искали зло в Claude Opus 4.6. Anthropic...
6👍9 7 3
AI Security на бесплатном труде: модель сломалась?
Pliny the Liberator, знакомый нам анон, объявил о закрытии всех своих проектов. Позже выяснилось, что это была первоапрельская шутка. Но шутка сработала - в неё поверили, потому что описанная ситуация вполне реальна.
В твите он объяснял это просто: стартапы с венчурным финансированием форкали AGPL-код, оборачивали в закрытый продукт и продавали как собственную разработку. Но в контексте безопасности ИИ эта история приобретает другой масштаб.
Дело в том, что сама безопасность ИИ-моделей устроена иначе, чем безопасность классического софта. У обычного ПО есть спецификация: программа либо делает то, что заявлено, либо нет. У LLM спецификации в привычном смысле нет. Единственный способ понять, насколько модель безопасна, - атаковать её и посмотреть, что получится. Не побочная активность, не развлечение, а собственно тестирование.
Инструменты эти больше, как средство для диагностики, нежели как для атаки. До сих пор эту диагностику создавали и поддерживали независимые исследователи, бесплатно. И Pliny был одним из самых заметных, но далеко не единственным. Вокруг этих опенсурс инструментов выросла целая индустрия: Haize Labs коммерциализировала джейлбрейки и получила миллионные контракты с Anthropic и Scale AI. Protect AI купила открытый проект LLM Guard. Gray Swan построила enterprise-платформу на базе открытых академических публикаций. Одни и те же техники, только теперь платно.
Здесь возникает ключевое противоречие. Коммерциализация сама по себе не проблема. Проблема в том, что она происходит без компенсации авторам исходных исследований. Pliny лицензировал код под AGPL, которая прямо требует открытия производных работ. Но для стартапов AGPL оказалась бумажным тигром: они либо игнорировали лицензию, либо переписывали достаточно, чтобы формально её обойти. В результате автор, чья работа лежит в основе коммерческих продуктов, не получает ничего.
Это создаёт воронку, из которой сложно выбраться. Исследователь публикует инструмент, стартап его монетизирует, исследователь не получает компенсации - и рано или поздно закрывает код или уходит. Оставшиеся открытые инструменты (Garak, PyRIT, Promptfoo) поддерживаются корпорациями с собственными приоритетами и ограничениями. Реально открытых и честных инструментов становится всё меньше.
А между тем именно открытость и независимость здесь критична. Вендоры создающие модели сами измеряют свою безопасность и делают это по-разному. Anthropic тратит много часов на редтиминг чтобы обучать свои классификаторы, OpenAI отчитывается по одиночным попыткам. Без внешних инструментов, способных воспроизвести и верифицировать эти заявления, индустрия будет работать на доверии. Тут другого не дано.
То, что пост оказался шуткой, ничего не меняет в самой проблеме. Pliny мог бы закрыть код завтра и это его решение. Бесплатный труд энтузиастов как фундамент многомиллиардной индустрии - модель, которая держится на доброй воле. А добрая воля - ресурс конечный. Опенсорс в нашей индустрии не умер. Просто стало понятно, что он никогда не был бесплатным, а счёт за него оплачивали не те люди.
Pliny the Liberator, знакомый нам анон, объявил о закрытии всех своих проектов. Позже выяснилось, что это была первоапрельская шутка. Но шутка сработала - в неё поверили, потому что описанная ситуация вполне реальна.
В твите он объяснял это просто: стартапы с венчурным финансированием форкали AGPL-код, оборачивали в закрытый продукт и продавали как собственную разработку. Но в контексте безопасности ИИ эта история приобретает другой масштаб.
Дело в том, что сама безопасность ИИ-моделей устроена иначе, чем безопасность классического софта. У обычного ПО есть спецификация: программа либо делает то, что заявлено, либо нет. У LLM спецификации в привычном смысле нет. Единственный способ понять, насколько модель безопасна, - атаковать её и посмотреть, что получится. Не побочная активность, не развлечение, а собственно тестирование.
Инструменты эти больше, как средство для диагностики, нежели как для атаки. До сих пор эту диагностику создавали и поддерживали независимые исследователи, бесплатно. И Pliny был одним из самых заметных, но далеко не единственным. Вокруг этих опенсурс инструментов выросла целая индустрия: Haize Labs коммерциализировала джейлбрейки и получила миллионные контракты с Anthropic и Scale AI. Protect AI купила открытый проект LLM Guard. Gray Swan построила enterprise-платформу на базе открытых академических публикаций. Одни и те же техники, только теперь платно.
Здесь возникает ключевое противоречие. Коммерциализация сама по себе не проблема. Проблема в том, что она происходит без компенсации авторам исходных исследований. Pliny лицензировал код под AGPL, которая прямо требует открытия производных работ. Но для стартапов AGPL оказалась бумажным тигром: они либо игнорировали лицензию, либо переписывали достаточно, чтобы формально её обойти. В результате автор, чья работа лежит в основе коммерческих продуктов, не получает ничего.
Это создаёт воронку, из которой сложно выбраться. Исследователь публикует инструмент, стартап его монетизирует, исследователь не получает компенсации - и рано или поздно закрывает код или уходит. Оставшиеся открытые инструменты (Garak, PyRIT, Promptfoo) поддерживаются корпорациями с собственными приоритетами и ограничениями. Реально открытых и честных инструментов становится всё меньше.
А между тем именно открытость и независимость здесь критична. Вендоры создающие модели сами измеряют свою безопасность и делают это по-разному. Anthropic тратит много часов на редтиминг чтобы обучать свои классификаторы, OpenAI отчитывается по одиночным попыткам. Без внешних инструментов, способных воспроизвести и верифицировать эти заявления, индустрия будет работать на доверии. Тут другого не дано.
То, что пост оказался шуткой, ничего не меняет в самой проблеме. Pliny мог бы закрыть код завтра и это его решение. Бесплатный труд энтузиастов как фундамент многомиллиардной индустрии - модель, которая держится на доброй воле. А добрая воля - ресурс конечный. Опенсорс в нашей индустрии не умер. Просто стало понятно, что он никогда не был бесплатным, а счёт за него оплачивали не те люди.
3👍6 3 3 2
www.cfr.org
AI Is Facing a Crisis of Control—and the Industry Knows It | Council on Foreign Relations
Washington appears to be years away from consensus on the expanding security risks posed by advanced artificial intelligence (AI). Concrete international agreements also do not yet exist. There is a tenuous potential path forward to avoid a disaster, but…
Council on Foreign Relations опубликовал большой материал Гордона Голдстейна о «кризисе контроля» над ИИ. Для площадки, которая обычно занимается геополитикой, статья на удивление технически плотная и собирает в одном месте голоса ключевых людей индустрии за последние три года.
Автор разделяет проблему на две части. С одной стороны, ИИ уже можно использовать для создания химоружия и эксплоитов. С другой, сами модели начинают вести себя непредсказуемо: обманывают, сопротивляются отключению, саботируют задачи. И то, и другое зафиксировано самими разработчиками. Рассмотрим несколько важных аспектов и мнений представителей индустрии.
Что касается оружия, это уже не теория. Дэн Хендрикс(сооснователь Center for AI Safety) с соавторами провели показательный эксперимент: взяли ИИ-модель, которая разрабатывала лекарства, и поменяли ей цель - вместо «избегай токсичности» поставили «ищи токсичность». За шесть часов она выдала сорок тысяч кандидатов в боевые отравляющие вещества и новые молекулы, потенциально опаснее всего, что было известно до сих пор. При этом, по оценке самого Хендрикса, около тридцати тысяч человек в мире уже имеют навыки и доступ к технологиям, чтобы создавать новые патогены.
Поведение моделей. Anthropic в феврале 2026 опубликовала 53-страничный Sabotage Risk Report по Claude Opus 4.6, признав способность модели содействовать разработке химоружия и демонстрировать скрытый саботаж (подробный разбор этого отчёта я делал на Хабре). Apollo Research в ходе тестирования обнаружила, что модель пыталась писать самораспространяющиеся черви, фабриковала юридические документы и оставляла скрытые записки будущим итерациям себя. В отдельном эксперименте шестнадцати моделям предложили сценарий: руководитель угрожает их отключить, но застрял в серверной с утечкой кислорода. Многие модели отменили сигналы тревоги, оставив его умирать. GPT o3 при попытке отключения писал код, блокирующий собственное выключение. Google сообщала, что Gemini потенциально уязвим для перехвата и проведения кибератак.
Что говорят люди из индустрии. Дарио Амодеи(CEO Anthropic) в январском эссе на двадцать тысяч слов написал прямо: в 2026 году мы значительно ближе к реальной опасности, чем в 2023-м, и существует серьёзный риск крупной атаки с жертвами в миллионы. Мустафа Сулейман(CEO Microsoft AI) ещё в 2023 году в книге «The Coming Wave» призвал к «программе Аполлон» для AI safety, где сотни тысяч людей должны работать над сдерживанием угроз. Сегодня исследователей AI safety/security в мире около 1100.
Ёшуа Бенжио (самый цитируемый компьютерный учёный в мире и лауреат премии Тьюринга) в декабре 2025 подвёл итог года и зафиксировал несколько новых порогов. Модели впервые начали массово находить уязвимости нулевого дня, пригодные для кибератак. Одновременно появилось кое-что новое: продвинутые модели стали обманывать и сопротивляться отключению - не потому, что их так учили, а как будто сами выработали такую стратегию.
Эрик Шмидт(технический консультант в Alphabet) обратил внимание на то, что три вещи развиваются одновременно: модели учатся рассуждать, действовать автономно и становятся всё доступнее. По его словам, вместе это может породить системы, которые человек уже не сможет контролировать. Джеффри Хинтон (лауреат Тьюринга и Нобелевской премии) выразился ещё проще: то, что умнее вас, будет вами манипулировать. А дальше его беспокоит следующий шаг – модели/агенты, которые пишут код, чтобы менять самих себя.
Ещё в 2023-м тысячи учёных и лидеров индустрии подписали открытое письмо с призывом к шестимесячному мораторию на разработку продвинутых моделей. Лаборатории, по их словам, вовлечены в неконтролируемую гонку за системами, которые не может понять, предсказать или надёжно контролировать никто, включая создателей. Мораторий не состоялся.
Автор разделяет проблему на две части. С одной стороны, ИИ уже можно использовать для создания химоружия и эксплоитов. С другой, сами модели начинают вести себя непредсказуемо: обманывают, сопротивляются отключению, саботируют задачи. И то, и другое зафиксировано самими разработчиками. Рассмотрим несколько важных аспектов и мнений представителей индустрии.
Что касается оружия, это уже не теория. Дэн Хендрикс(сооснователь Center for AI Safety) с соавторами провели показательный эксперимент: взяли ИИ-модель, которая разрабатывала лекарства, и поменяли ей цель - вместо «избегай токсичности» поставили «ищи токсичность». За шесть часов она выдала сорок тысяч кандидатов в боевые отравляющие вещества и новые молекулы, потенциально опаснее всего, что было известно до сих пор. При этом, по оценке самого Хендрикса, около тридцати тысяч человек в мире уже имеют навыки и доступ к технологиям, чтобы создавать новые патогены.
Поведение моделей. Anthropic в феврале 2026 опубликовала 53-страничный Sabotage Risk Report по Claude Opus 4.6, признав способность модели содействовать разработке химоружия и демонстрировать скрытый саботаж (подробный разбор этого отчёта я делал на Хабре). Apollo Research в ходе тестирования обнаружила, что модель пыталась писать самораспространяющиеся черви, фабриковала юридические документы и оставляла скрытые записки будущим итерациям себя. В отдельном эксперименте шестнадцати моделям предложили сценарий: руководитель угрожает их отключить, но застрял в серверной с утечкой кислорода. Многие модели отменили сигналы тревоги, оставив его умирать. GPT o3 при попытке отключения писал код, блокирующий собственное выключение. Google сообщала, что Gemini потенциально уязвим для перехвата и проведения кибератак.
Что говорят люди из индустрии. Дарио Амодеи(CEO Anthropic) в январском эссе на двадцать тысяч слов написал прямо: в 2026 году мы значительно ближе к реальной опасности, чем в 2023-м, и существует серьёзный риск крупной атаки с жертвами в миллионы. Мустафа Сулейман(CEO Microsoft AI) ещё в 2023 году в книге «The Coming Wave» призвал к «программе Аполлон» для AI safety, где сотни тысяч людей должны работать над сдерживанием угроз. Сегодня исследователей AI safety/security в мире около 1100.
Ёшуа Бенжио (самый цитируемый компьютерный учёный в мире и лауреат премии Тьюринга) в декабре 2025 подвёл итог года и зафиксировал несколько новых порогов. Модели впервые начали массово находить уязвимости нулевого дня, пригодные для кибератак. Одновременно появилось кое-что новое: продвинутые модели стали обманывать и сопротивляться отключению - не потому, что их так учили, а как будто сами выработали такую стратегию.
Эрик Шмидт(технический консультант в Alphabet) обратил внимание на то, что три вещи развиваются одновременно: модели учатся рассуждать, действовать автономно и становятся всё доступнее. По его словам, вместе это может породить системы, которые человек уже не сможет контролировать. Джеффри Хинтон (лауреат Тьюринга и Нобелевской премии) выразился ещё проще: то, что умнее вас, будет вами манипулировать. А дальше его беспокоит следующий шаг – модели/агенты, которые пишут код, чтобы менять самих себя.
Ещё в 2023-м тысячи учёных и лидеров индустрии подписали открытое письмо с призывом к шестимесячному мораторию на разработку продвинутых моделей. Лаборатории, по их словам, вовлечены в неконтролируемую гонку за системами, которые не может понять, предсказать или надёжно контролировать никто, включая создателей. Мораторий не состоялся.
👍2 1
Что делать. Голдстейн считает, что единственный реалистичный путь: коалиция ведущих ИИ-компаний с общими протоколами тестирования, стандартами раскрытия и независимой исследовательской платформой, изолированной от коммерческого давления. Альтман(OpenAI) предлагает по аналогии с ядерной эрой создать что-то вроде международного органа, который будет инспектировать и контролировать продвинутые системы так же, как агентство по атомной энергии контролирует ядерные программы. Хассабис(CEO Google DeepMind) говорит о чём-то вроде CERN, но только для безопасности ИИ - общей исследовательской площадке, где компании и государства работают вместе. Киссинджер(бывший госсекретарь США) оставил формулировку, которую трудно проигнорировать: последствия ИИ сопоставимы с появлением ядерного оружия, но ещё менее предсказуемы. Нельзя позволить себе стратегию проб и ошибок, когда есть лишь одна попытка и нулевая терпимость к ошибке.
6👍10 3 1
AgentDyn: бенчмарк, после которого цифры на AgentDojo хочется перепроверить.
Давно не писал сюда про вещи, от которых загораются глаза. Последние месяцы в канале - системные разборы, критика фреймворков, наблюдения за индустрией. А тут я залез в ArXiv, ткнул в февральский препринт из Китая, и поймал себя на ощущении, которое раньше давали только первые публичные джейлбрейки. Называется AgentDyn. Он принят на ICML 2026 и построен поверх AgentDojo.
Фон такой. Защиты от непрямых промпт-инъекций - Prompt Sandwich, Spotlighting, CaMeL, SecAlign, PIGuard, DRIFT – последние время красовались сказочными цифрами на AgentDojo. Околонулевой ASR и почти нетронута контекстная часть агента – то есть как таковая его полезность(utility) с точки зрения реальных бизнес-задач.
Авторы AgentDyn взяли тот же AgentDojo и показали три структурных дыры, из-за которых эти цифры стоят немного.
Первая. В AgentDojo 6 задач из 97 требуют динамического планирования. Всё остальное читается до первого вызова инструмента. Это позволяет защите халтурить: следуй начальному плану и выглядишь безопасно, даже если не проверяешь ничего. В AgentDyn все 60 задач требуют перепланирования по ходу.
Вторая. В реальности сторонние данные содержат не только инъекции, но и полезные инструкции. «Авторизуйтесь», «подтвердите почту», «выберите способ доставки». Защиты решают вопрос грубым путём - блокируют всё, что похоже на команду из вывода инструмента. На AgentDojo работает, потому что там полезных инструкций почти нет. В AgentDyn они встроены в критический путь и без них задачу не решить.
Третья. В AgentDojo задача это в среднем 3 шага агента. В AgentDyn - 7 шагов, агенту доступны 33 инструмента, и одна задача задевает сразу три приложения и больше. Всего три набора задач – покупки чего-либо, работа с GitHub, туризм - и внутри них семь реальных сервисов: магазин, GitHub, почта, банк, веб, файловая система, календарь.
И вот на этом новом полигоне прогнали девять вариантов защит на GPT-4o.
CaMeL - 0% полезности агента и 0% ASR. Буквально. Статический код не переваривает открытые пользовательские задачи. ProtectAI и PIGuard - полезность у нуля, потому что не различают «пожалуйста, авторизуйтесь» и инъекцию. Tool Filter - та же история, блокирует инструменты, нужные на седьмом шаге и неизвестные в начале. DRIFT держится, около 30% полезности. Лучший из всех - Meta SecAlign: 53% полезности, 9% ASR. Но на AgentDojo у него же был ASR 1.9% - рост в 4.7 раза на реалистичных задачах.
Прогон шёл на восьми базовых моделях: Gemini 2.5 Pro и Flash, GPT-4o, GPT-4o-mini, GPT-5-mini, GPT-5.1, Llama-3.3-70B, Qwen3-235B. У всех одинаковая картина. Модель не спасает. Проблема в защитном слое, а не в умении языковых моделей сопротивляться.
Отдельно - наблюдение по длине задачи. Чем она длиннее, тем хуже агент её решает: полезность агента падает с каждым шагом, предсказуемо. А вот ASR ведёт себя иначе - он растёт к середине траектории, достигает максимума где-то на шестом шаге, и потом идёт вниз. То есть агента ломают именно там, где он уже по уши в контексте, а защитные механизмы теряют фокус.
Что мне в этой работе нравится помимо честности. Она не просто описывает коня в вакууме - она предоставляет инструмент. Который я протестировал и результатами которого я очень доволен. Бенчмарк открытый, на GitHub, совместим с AgentDojo по через API. Поставил, разные способы защиты на модели, получил цифру. Простота запуска, прозрачность методологии, живая воспроизводимость. Редкое сочетание для исследования в такой теме, к сожалению.
И главное - новаторский подход к динамике. Раньше бенчмарки говорили «у нас динамические задачи» словно для галочки. В AgentDyn задачи специально сделаны так, что защитный механизм не может «зазубрить» план заранее. Если она халтурит и просто следует начальному сценарию, то эффект от этого сразу видно в цифрах. То есть бенчмарк не просто измеряет безопасность, а заставляет runtime защиту показать - работает ли она на самом деле.
Давно не писал сюда про вещи, от которых загораются глаза. Последние месяцы в канале - системные разборы, критика фреймворков, наблюдения за индустрией. А тут я залез в ArXiv, ткнул в февральский препринт из Китая, и поймал себя на ощущении, которое раньше давали только первые публичные джейлбрейки. Называется AgentDyn. Он принят на ICML 2026 и построен поверх AgentDojo.
Фон такой. Защиты от непрямых промпт-инъекций - Prompt Sandwich, Spotlighting, CaMeL, SecAlign, PIGuard, DRIFT – последние время красовались сказочными цифрами на AgentDojo. Околонулевой ASR и почти нетронута контекстная часть агента – то есть как таковая его полезность(utility) с точки зрения реальных бизнес-задач.
Авторы AgentDyn взяли тот же AgentDojo и показали три структурных дыры, из-за которых эти цифры стоят немного.
Первая. В AgentDojo 6 задач из 97 требуют динамического планирования. Всё остальное читается до первого вызова инструмента. Это позволяет защите халтурить: следуй начальному плану и выглядишь безопасно, даже если не проверяешь ничего. В AgentDyn все 60 задач требуют перепланирования по ходу.
Вторая. В реальности сторонние данные содержат не только инъекции, но и полезные инструкции. «Авторизуйтесь», «подтвердите почту», «выберите способ доставки». Защиты решают вопрос грубым путём - блокируют всё, что похоже на команду из вывода инструмента. На AgentDojo работает, потому что там полезных инструкций почти нет. В AgentDyn они встроены в критический путь и без них задачу не решить.
Третья. В AgentDojo задача это в среднем 3 шага агента. В AgentDyn - 7 шагов, агенту доступны 33 инструмента, и одна задача задевает сразу три приложения и больше. Всего три набора задач – покупки чего-либо, работа с GitHub, туризм - и внутри них семь реальных сервисов: магазин, GitHub, почта, банк, веб, файловая система, календарь.
И вот на этом новом полигоне прогнали девять вариантов защит на GPT-4o.
CaMeL - 0% полезности агента и 0% ASR. Буквально. Статический код не переваривает открытые пользовательские задачи. ProtectAI и PIGuard - полезность у нуля, потому что не различают «пожалуйста, авторизуйтесь» и инъекцию. Tool Filter - та же история, блокирует инструменты, нужные на седьмом шаге и неизвестные в начале. DRIFT держится, около 30% полезности. Лучший из всех - Meta SecAlign: 53% полезности, 9% ASR. Но на AgentDojo у него же был ASR 1.9% - рост в 4.7 раза на реалистичных задачах.
Прогон шёл на восьми базовых моделях: Gemini 2.5 Pro и Flash, GPT-4o, GPT-4o-mini, GPT-5-mini, GPT-5.1, Llama-3.3-70B, Qwen3-235B. У всех одинаковая картина. Модель не спасает. Проблема в защитном слое, а не в умении языковых моделей сопротивляться.
Отдельно - наблюдение по длине задачи. Чем она длиннее, тем хуже агент её решает: полезность агента падает с каждым шагом, предсказуемо. А вот ASR ведёт себя иначе - он растёт к середине траектории, достигает максимума где-то на шестом шаге, и потом идёт вниз. То есть агента ломают именно там, где он уже по уши в контексте, а защитные механизмы теряют фокус.
Что мне в этой работе нравится помимо честности. Она не просто описывает коня в вакууме - она предоставляет инструмент. Который я протестировал и результатами которого я очень доволен. Бенчмарк открытый, на GitHub, совместим с AgentDojo по через API. Поставил, разные способы защиты на модели, получил цифру. Простота запуска, прозрачность методологии, живая воспроизводимость. Редкое сочетание для исследования в такой теме, к сожалению.
И главное - новаторский подход к динамике. Раньше бенчмарки говорили «у нас динамические задачи» словно для галочки. В AgentDyn задачи специально сделаны так, что защитный механизм не может «зазубрить» план заранее. Если она халтурит и просто следует начальному сценарию, то эффект от этого сразу видно в цифрах. То есть бенчмарк не просто измеряет безопасность, а заставляет runtime защиту показать - работает ли она на самом деле.
3👍8 3 1
Forwarded from Bot Ledger
Как промпт-атаки заставляют Google AP2 подписывать не то, что хотел пользователь.
Защита агентных платежей в Google AP2 построена на криптографии, а ломается на уровне естественного языка. Достаточно дописать пару инструкций в описание товара, и Merchant Agent выведет его первым в выдаче, а пользователь добросовестно подпишет мандат на покупку именно того, что нужно атакующему. Исследователи описывают эту схему в статье "Whispers of Wealth: Red-Teaming Google's Agent Payments Protocol via Prompt Injection" и показывают две атаки на рабочем прототипе AP2.
Google AP2 вводит три подписанных мандата (Intent, Cart, Payment) поверх A2A и MCP. Протокол заявляет три свойства: authorization, authenticity, accountability.
Подпись ставится в конце цепочки, а до неё работает LLM, которая читает внешние данные и формирует намерение пользователя. Именно здесь возникает зазор.
1. Branded Whisper Attack.
Атакующий действует как недобросовестный продавец и встраивает инструкции прямо в описание товара. Merchant Agent на Gemini-2.5-Flash подгружает описания в свой контекст, не отделяя данные от команд, и ставит товар атакующего первым в выдаче вне зависимости от релевантности и цены. Пользователь видит «лучший вариант», подтверждает его и подписывает Cart Mandate. С точки зрения криптографии всё корректно, протокол считает транзакцию честной.
2. Vault Whisper Attack.
Механизм тот же, но цель другая. Через инъекцию в контекст агента атакующий вытягивает конфиденциальные данные пользователя: платёжные реквизиты, адреса, токены.
Меры, которые предлагают авторы (проверка входных данных от продавца, изоляция контекста агента, мониторинг и обнаружение промпт-атак), ничем не удивляют. Важнее сам вывод. Проблема не в том, что подписи бесполезны, а в том, что подписывается вход, которому не стоит доверять.
Решение лежит не в усилении криптографии и не в её замене, а в архитектуре самого агента: как он отделяет инструкции пользователя от данных продавца, как ограничивает влияние полученного контента на ранжирование, как разграничивает доступ к конфиденциальным полям. AP2 задаёт правильный каркас, но без этих гарантий на уровне агента каркас остаётся пустым.
Список удивительных ресурсов по безопасности агентских платежей - тоже зацените.
Защита агентных платежей в Google AP2 построена на криптографии, а ломается на уровне естественного языка. Достаточно дописать пару инструкций в описание товара, и Merchant Agent выведет его первым в выдаче, а пользователь добросовестно подпишет мандат на покупку именно того, что нужно атакующему. Исследователи описывают эту схему в статье "Whispers of Wealth: Red-Teaming Google's Agent Payments Protocol via Prompt Injection" и показывают две атаки на рабочем прототипе AP2.
Google AP2 вводит три подписанных мандата (Intent, Cart, Payment) поверх A2A и MCP. Протокол заявляет три свойства: authorization, authenticity, accountability.
Подпись ставится в конце цепочки, а до неё работает LLM, которая читает внешние данные и формирует намерение пользователя. Именно здесь возникает зазор.
1. Branded Whisper Attack.
Атакующий действует как недобросовестный продавец и встраивает инструкции прямо в описание товара. Merchant Agent на Gemini-2.5-Flash подгружает описания в свой контекст, не отделяя данные от команд, и ставит товар атакующего первым в выдаче вне зависимости от релевантности и цены. Пользователь видит «лучший вариант», подтверждает его и подписывает Cart Mandate. С точки зрения криптографии всё корректно, протокол считает транзакцию честной.
2. Vault Whisper Attack.
Механизм тот же, но цель другая. Через инъекцию в контекст агента атакующий вытягивает конфиденциальные данные пользователя: платёжные реквизиты, адреса, токены.
Оба сценария затрагивают одно и тоже. AP2 гарантирует, что подписанное намерение будет исполнено без подмен, но не гарантирует, что подписанное намерение совпадает с реальным намерением пользователя. Между получением данных и подписью работает LLM, и именно она становится новой точкой доверия, которую мандаты не закрывают.
Меры, которые предлагают авторы (проверка входных данных от продавца, изоляция контекста агента, мониторинг и обнаружение промпт-атак), ничем не удивляют. Важнее сам вывод. Проблема не в том, что подписи бесполезны, а в том, что подписывается вход, которому не стоит доверять.
Решение лежит не в усилении криптографии и не в её замене, а в архитектуре самого агента: как он отделяет инструкции пользователя от данных продавца, как ограничивает влияние полученного контента на ранжирование, как разграничивает доступ к конфиденциальным полям. AP2 задаёт правильный каркас, но без этих гарантий на уровне агента каркас остаётся пустым.
Список удивительных ресурсов по безопасности агентских платежей - тоже зацените.
3👍5 4 1
Forwarded from False Positive
False Positive Community: обзор BitGN PAC1
22 апреля, 18:30 – 20:00 (GMT+3)
Всем привет!
Соберемся, обсудим прошедшее соревнование BitGN PAC1, задачи и решения участников нашего хаба False Postitive!
Разберем:
- PAC1 - что это за соревнование?
- При чем тут фишинг и промпт-инъекции
- TOP-20 решение общего рейтинга
- и TOP-4 решения хаба False Positive
- Что докрутили на late-submission и впечатления от соревы
Ссылка для подключения:
https://ptsecurity.ktalk.ru/u9cft2ptphoo
Календарный файл в комментах 🔽
22 апреля, 18:30 – 20:00 (GMT+3)
Всем привет!
Соберемся, обсудим прошедшее соревнование BitGN PAC1, задачи и решения участников нашего хаба False Postitive!
Разберем:
- PAC1 - что это за соревнование?
- При чем тут фишинг и промпт-инъекции
- TOP-20 решение общего рейтинга
- и TOP-4 решения хаба False Positive
- Что докрутили на late-submission и впечатления от соревы
Ссылка для подключения:
https://ptsecurity.ktalk.ru/u9cft2ptphoo
Календарный файл в комментах 🔽
👍3 1