ML&|Sec Feed

AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents

https://www.alphaxiv.org/overview/2604.24657

В статье представлена AGENTWARD, архитектура безопасности жизненного цикла для автономных ИИ-агентов, разрабатывающая пятиуровневую структуру глубокой защиты для систематической защиты агентов от инициализации до выполнения. Она демонстрирует практическую интеграцию в архитектуру агента OpenClaw, показывая, как скоординированные слои обнаруживают и смягчают многоэтапные угрозы, такие как эксплуатация вредоносных навыков и косвенные инъекции промптов.

Выводы
- Эффективная безопасность для автономных ИИ-агентов требует полномасштабного подхода к жизненному циклу, поскольку угрозы часто зарождаются на одном этапе и распространяются, проявляясь как вредоносные действия на последующих этапах.
- Принудительное применение принципа нулевого доверия и гетерогенные механизмы защиты на нескольких уровнях критически важны для надежной защиты, гарантируя, что каждый этап независимо оценивает риски и обеспечивает устойчивость к разнообразным методам атак.
- Межслойная координация, за счет обмена контекстом безопасности и накопления доказательств риска, позволяет фреймворку более эффективно обнаруживать и реагировать на сложные многоэтапные цепочки атак, чем изолированные контрольные точки безопасности.

Проблема
- Автономные ИИ-агенты с их итеративными системами, динамическими путями выполнения и расширенными привилегиями создают сложные проблемы безопасности во время выполнения, которые традиционные точечные модели безопасности не могут адекватно решить.
- Сбои безопасности в автономных агентах часто распространяются на несколько этапов жизненного цикла (инициализация, ввод, память, принятие решений, выполнение), что делает одноэтапные защиты неэффективными против постоянных, межэтапных траекторий угроз.
- Уязвимости существуют на каждом этапе жизненного цикла агента, начиная от скомпрометированных базовых компонентов и ненадежных внешних входов до постоянного повреждения памяти и несанкционированных действий, что требует целостной стратегии защиты.

Метод
- AGENTWARD предлагает ориентированную на жизненный цикл, глубоко эшелонированную архитектуру, которая систематически организует средства контроля безопасности на пяти различных этапах выполнения: сканирование основы (инициализация), очистка вводимых данных, защита когнитивных функций (память), выравнивание решений и контроль выполнения.
- Архитектура интегрирует разнородные механизмы безопасности на каждом уровне, разработанные с применением принципа нулевого доверия, и использует межслойную координацию через общий контекст безопасности для накопления доказательств риска и адаптации защитных мер.
- Прототип AGENTWARD, разработанный как плагин, реализован на OpenClaw, демонстрируя, как элементы управления безопасностью могут быть привязаны к событиям во время выполнения и управлять оценками безопасности в ходе операций агента.

Результаты
- Архитектура AGENTWARD предоставляет комплексный план для интеграции средств контроля безопасности во время выполнения в автономные ИИ-агенты, доказанный как реализуемый благодаря его реализации в виде плагина на OpenClaw.
- Тематические исследования демонстрируют способность AGENTWARD обнаруживать и прерывать сложные атаки жизненного цикла, такие как эксплуатация вредоносных навыков, приводящая к несанкционированному доступу к данным, путем распространения маркеров риска от инициализации до выполнения.
- Фреймворк эффективно смягчает атаки с косвенным внедрением промптов, направленные на создание постоянных бэкдоров или DoS, показывая, как слои очистки ввода, защиты когнитивных функций (целостности памяти) и контроля выполнения координируются для предотвращения заражения и вредоносных действий.

alphaXiv

AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents | alphaXiv

The paper introduces AGENTWARD, a lifecycle security architecture for autonomous AI agents, designing a five-layer defense-in-depth framework to systematic

194 views07:47