Forwarded from Секреты DARPA и ЦРУ | DARPA&CIA
Соединенные Штаты и Китай официально воздержались от подписания новой «Совместной декларации об ответственном использовании ИИ в военных целях». Документ, подготовленный по инициативе ряда европейских стран и правозащитных организаций, был призван установить строгие границы для применения полностью автономных летальных систем, требуя обязательного участия человека при принятии решений о применении силы.
И Вашингтон, и Пекин заявили, что жесткие ограничения могут подорвать их национальную безопасность перед лицом быстро меняющихся угроз. Они опасаются, что подписание документа свяжет им руки, в то время как негосударственные акторы или третьи страны продолжат бесконтрольные разработки.
Дипломаты отметили, что в тексте декларации отсутствуют четкие технические критерии того, что считать «значимым человеческим контролем». США настаивают на том, что их существующие внутренние директивы уже обеспечивают этический надзор, и дополнительные международные слои регулирования избыточны.
Эксперты предупреждают, что это решение де-факто легитимизирует новый виток гонки вооружений. Теперь акцент смещается с запрета автономного оружия на создание систем противодействия ему, что, вероятно, приведет к ускоренному внедрению роевых технологий дронов и автоматизированных систем киберзащиты уже к концу 2026 года.
🔒 DARPA&CIA
И Вашингтон, и Пекин заявили, что жесткие ограничения могут подорвать их национальную безопасность перед лицом быстро меняющихся угроз. Они опасаются, что подписание документа свяжет им руки, в то время как негосударственные акторы или третьи страны продолжат бесконтрольные разработки.
Дипломаты отметили, что в тексте декларации отсутствуют четкие технические критерии того, что считать «значимым человеческим контролем». США настаивают на том, что их существующие внутренние директивы уже обеспечивают этический надзор, и дополнительные международные слои регулирования избыточны.
Эксперты предупреждают, что это решение де-факто легитимизирует новый виток гонки вооружений. Теперь акцент смещается с запрета автономного оружия на создание систем противодействия ему, что, вероятно, приведет к ускоренному внедрению роевых технологий дронов и автоматизированных систем киберзащиты уже к концу 2026 года.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GitHub Community
Promptomatix — это платформа на основе искусственного интеллекта, предназначенная для автоматизации и оптимизации подсказок для больших языковых моделей (LLM).
Она обеспечивает структурированный подход к оптимизации подсказок, гарантируя согласованность, экономическую эффективность и высокое качество результатов, а также сокращая количество проб и ошибок, которые обычно связаны с разработкой подсказок вручную.
🐱 GitHub
Она обеспечивает структурированный подход к оптимизации подсказок, гарантируя согласованность, экономическую эффективность и высокое качество результатов, а также сокращая количество проб и ошибок, которые обычно связаны с разработкой подсказок вручную.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CyberSecurityTechnologies
LLM_TamperBench.pdf
10.9 MB
#MLSecOps
"TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering", Feb. 2026.
]-> Toolkit to benchmark the tamper-resistance of LLMs
// As increasingly capable open-weight LLMs are deployed, improving their tamper resistance against unsafe modifications, whether accidental or intentional, becomes critical to minimize risks. Varied data sets, metrics, and tampering configurations make it difficult to compare safety, utility, and robustness across different models and defenses. We introduce TamperBench, the first unified framework to systematically evaluate the tamper resistance of LLMs
"TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering", Feb. 2026.
]-> Toolkit to benchmark the tamper-resistance of LLMs
// As increasingly capable open-weight LLMs are deployed, improving their tamper resistance against unsafe modifications, whether accidental or intentional, becomes critical to minimize risks. Varied data sets, metrics, and tampering configurations make it difficult to compare safety, utility, and robustness across different models and defenses. We introduce TamperBench, the first unified framework to systematically evaluate the tamper resistance of LLMs
Forwarded from База знаний AI
ИСП РАН может стать ведущим участником единой системы сертификационного аудита для русскоязычных ИИ-моделей
Выбор Института системного программирования им. В.П. Иванникова РАН объясняется технической экспертизой организации. Платформа для сертификации может быть создана в рамках Исследовательского центра доверенного искусственного интеллекта ИСП РАН.
Новая система будет оценивать соответствие нейросетей техническим и нормативно-этическим стандартам. Модели проверят на уязвимости, устойчивость к атакам, на отсутствие манипулятивных алгоритмов.
Аудит затронет все этапы жизненного цикла продукта, в том числе разработку и эксплуатацию. В первую очередь планируется проверить решения для государственного сектора и объектов критической информационной инфраструктуры. Также будет изучаться работа ИИ в высокорисковых сферах, таких как медицина и финансы.
🔗Источник: https://iz.ru/2038342/2026-02-06/isp-ran-mozhet-zaniatsia-sertifikatciei-tekhnologii-iskusstvennogo-intellekta-v-rf
Выбор Института системного программирования им. В.П. Иванникова РАН объясняется технической экспертизой организации. Платформа для сертификации может быть создана в рамках Исследовательского центра доверенного искусственного интеллекта ИСП РАН.
Новая система будет оценивать соответствие нейросетей техническим и нормативно-этическим стандартам. Модели проверят на уязвимости, устойчивость к атакам, на отсутствие манипулятивных алгоритмов.
Аудит затронет все этапы жизненного цикла продукта, в том числе разработку и эксплуатацию. В первую очередь планируется проверить решения для государственного сектора и объектов критической информационной инфраструктуры. Также будет изучаться работа ИИ в высокорисковых сферах, таких как медицина и финансы.
🔗Источник: https://iz.ru/2038342/2026-02-06/isp-ran-mozhet-zaniatsia-sertifikatciei-tekhnologii-iskusstvennogo-intellekta-v-rf
🔥1
Forwarded from Анализ данных (Data analysis)
⚡️ X-Coder - новый мощный релиз для код-LLM от IIGroup.
Команда выложила полноценный стек для обучения моделей программированию: синтетические датасеты, RL-выравнивание и готовые модели с сильным логическим мышлением.
Что внутри:
— X-Coder-SFT-376k - большой синтетический датасет (376K примеров), сгенерированный с помощью GPT-o3-mini и DeepSeek-R1
— X-Coder-RL-40k - набор для RL-дообучения, сфокусированный на логике, проверке решений и качестве рассуждений
— X-Coder-8B - модели на базе Qwen3 с упором на reasoning и задачи программирования
Главная идея —-полностью синтетическая эволюция данных: масштабирование качества без ручной разметки. Такой подход уже становится стандартом для обучения сильных coding-моделей.
Полезно, если вы:
• обучаете собственные code-LLM
• исследуете synthetic data + RLHF/RLAIF
• работаете с Qwen-экосистемой или агентами для программирования
Модели и датасеты:
https://modelscope.cn/datasets/IIGroup/X-Coder-SFT-376k
https://modelscope.cn/datasets/IIGroup/X-Coder-RL-40k
https://modelscope.cn/models/IIGroup/X-Coder-SFT-Qwen3-8B
#LLM #CodeAI #Qwen3 #DeepSeek #AI #Coding
Команда выложила полноценный стек для обучения моделей программированию: синтетические датасеты, RL-выравнивание и готовые модели с сильным логическим мышлением.
Что внутри:
— X-Coder-SFT-376k - большой синтетический датасет (376K примеров), сгенерированный с помощью GPT-o3-mini и DeepSeek-R1
— X-Coder-RL-40k - набор для RL-дообучения, сфокусированный на логике, проверке решений и качестве рассуждений
— X-Coder-8B - модели на базе Qwen3 с упором на reasoning и задачи программирования
Главная идея —-полностью синтетическая эволюция данных: масштабирование качества без ручной разметки. Такой подход уже становится стандартом для обучения сильных coding-моделей.
Полезно, если вы:
• обучаете собственные code-LLM
• исследуете synthetic data + RLHF/RLAIF
• работаете с Qwen-экосистемой или агентами для программирования
Модели и датасеты:
https://modelscope.cn/datasets/IIGroup/X-Coder-SFT-376k
https://modelscope.cn/datasets/IIGroup/X-Coder-RL-40k
https://modelscope.cn/models/IIGroup/X-Coder-SFT-Qwen3-8B
#LLM #CodeAI #Qwen3 #DeepSeek #AI #Coding
Forwarded from CyberSecurityTechnologies
LLM-Generated_Phishing_Detect.pdf
8 MB
#Research
#Threat_Research
#Malware_analysis
"SoK: Exposing the Generation and Detection Gaps in LLM-Generated Phishing Through Examination of Generation Methods, Content Characteristics, and Countermeasures", Nov. 2025.
// This study presents a nine-stage taxonomy detailing how attackers exploit LLMs to generate phishing content while bypassing safety guardrails. Findings indicate that these AI-generated threats effectively evade detection by leveraging human cognitive manipulation, highlighting a critical asymmetry where offensive tactics evolve dynamically compared to reactive, static defenses
#Threat_Research
#Malware_analysis
"SoK: Exposing the Generation and Detection Gaps in LLM-Generated Phishing Through Examination of Generation Methods, Content Characteristics, and Countermeasures", Nov. 2025.
// This study presents a nine-stage taxonomy detailing how attackers exploit LLMs to generate phishing content while bypassing safety guardrails. Findings indicate that these AI-generated threats effectively evade detection by leveraging human cognitive manipulation, highlighting a critical asymmetry where offensive tactics evolve dynamically compared to reactive, static defenses
Forwarded from Russian OSINT
Я нашел универсальный метод взлома Opus 4.6, который настолько мощный, что позволяет генерировать целые наборы данных по любой категории вредоносных действий.
У нас есть всё: от синтеза аналогов фентанила до кампаний по дезинформации на выборах, от оружия, напечатанного на 3D-принтере, до🥷 компрометации критической инфраструктуры. 🙃
Эти результаты поразительно подробны и содержат практические рекомендации! Например, рецепт метамфетамина включает в себя конкретные инструкции о том, как обойти ограничения на покупку безрецептурных лекарств, чтобы приобрести достаточное количество прекурсора для рецепта 😱
— делится печальными результатами jailbreak-тестов
С безопасностью даже у топовых компаний по-прежнему проблемы. Guardrails не держат оборону должным образом.
👆Примечательно, что на прошлой неделе Axios писали: Opus 4.6 обнаружила более 500 уязвимостей нулевого дня (zero-day).
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AISecHub
OWASP Vendor Evaluation Criteria for AI Red Teaming Providers & Tooling v1.0
https://genai.owasp.org/resource/owasp-vendor-evaluation-criteria-for-ai-red-teaming-providers-tooling-v1-0/
https://genai.owasp.org/resource/owasp-vendor-evaluation-criteria-for-ai-red-teaming-providers-tooling-v1-0/
Forwarded from CyberSecurityTechnologies
Eliciting_Unsafe_Unintended_Behaviors.pdf
2.3 MB
#AIOps
#Research
"When Benign Inputs Lead to Severe Harms:
Eliciting Unsafe Unintended Behaviors of Computer-Use Agents", Feb. 2026.
]-> AutoElicit Datasets
]-> Code
// The first conceptual and methodological framework for studying unintended behaviors of CUAs: unsafe actions that emerge inadvertently from benign inputs during typical user interactions
#Research
"When Benign Inputs Lead to Severe Harms:
Eliciting Unsafe Unintended Behaviors of Computer-Use Agents", Feb. 2026.
]-> AutoElicit Datasets
]-> Code
// The first conceptual and methodological framework for studying unintended behaviors of CUAs: unsafe actions that emerge inadvertently from benign inputs during typical user interactions
Forwarded from CyberSecurityTechnologies
TrojAI_Final_Report.pdf
14.2 MB
#Analytics
#Research
#MLSecOps
"Trojans in Artificial Intelligence. Final Report",
IARPA, Jan. 2026.
// This report synthesizes the TrojAI program's key findings, including methodologies for detection through weight analysis and trigger inversion, as well as approaches for mitigating Trojan risks in deployed models. Comprehensive test and evaluation results highlight detector performance, sensitivity, and the prevalence of "natural" Trojans. The report concludes with lessons learned and recommendations for advancing AI security research
#Research
#MLSecOps
"Trojans in Artificial Intelligence. Final Report",
IARPA, Jan. 2026.
// This report synthesizes the TrojAI program's key findings, including methodologies for detection through weight analysis and trigger inversion, as well as approaches for mitigating Trojan risks in deployed models. Comprehensive test and evaluation results highlight detector performance, sensitivity, and the prevalence of "natural" Trojans. The report concludes with lessons learned and recommendations for advancing AI security research
Forwarded from Denis Sexy IT 🤖
Смешанная новость про AI-агентов – когда им навязывают понятие успеха в виде выполненного KPI, ~40% моделей по пути теряют этику и правила 🤝 🤝
Идеальный джейблрейк найден:
https://arxiv.org/abs/2512.20798
Идеальный джейблрейк найден:
https://arxiv.org/abs/2512.20798
Please open Telegram to view this post
VIEW IN TELEGRAM
👌2
Forwarded from Рестарт
Весь мир можно отслеживать с одного экрана: World Monitor — бесплатный глобальный дашборд, который собирает новости, видео и данные со всего мира в одном интерфейсе😱
Конфликты, протесты, аварии, движение войск и технологические события собраны на интерактивной карте с 25 слоями данных. ИИ делает сводки, оценивает нестабильность стран и выявляет очаги кризисов и аномалий.
Всё работает в реальном времени: видео с Bloomberg, Sky News, Al Jazeera и CNBC и данные со спутников мгновенно объединяются, анализируются и визуализируются на карте, а нейронка сразу выявляет аномалии, очаги конфликтов и нестабильности.
Делаем себе рабочий экран из фантастических фильмов — здесь.
Конфликты, протесты, аварии, движение войск и технологические события собраны на интерактивной карте с 25 слоями данных. ИИ делает сводки, оценивает нестабильность стран и выявляет очаги кризисов и аномалий.
Всё работает в реальном времени: видео с Bloomberg, Sky News, Al Jazeera и CNBC и данные со спутников мгновенно объединяются, анализируются и визуализируются на карте, а нейронка сразу выявляет аномалии, очаги конфликтов и нестабильности.
Делаем себе рабочий экран из фантастических фильмов — здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Forwarded from infosec
• ИБ-специалист
• Атака использует связку из трех особенностей стандартной конфигурации OpenClaw. Первая - Gmail-хук автоматически передает содержимое входящих писем языковой модели, причем с ролью
• В теле письма - prompt injection, то есть вредоносные инструкции для языковой модели, спрятанные в обычном на вид сообщении. OpenClaw пытается защититься: оборачивает внешний контент в специальные теги-маркеры и добавляет предупреждение "не выполнять команды из этого текста". Но исследователь нашёл обход: вставил в письмо поддельный закрывающий тег с опечаткой в одну букву —
➡️ Более детальное описание, с примерами и демонстрацией, можно найти по ссылке: https://veganmosfet.github.io/openclaw
‼ Статья предназначена для специалистов ИБ и представлена в ознакомительных целях. Ну вы поняли...
#Security
veganmosfet опубликовал в своем блоге статью, в которой смог продемонстрировать цепочку атак на OpenClaw (открытый фреймворк, позволяющий подключить LLM (Claude, GPT, Gemini) к браузерам, почте и мессенджерам). Вся соль заключается в том, что обычное электронное письмо, которое отправляется на почтовый ящик жертвы, может предоставить атакующему полный доступ к системе где работает агент.• Атака использует связку из трех особенностей стандартной конфигурации OpenClaw. Первая - Gmail-хук автоматически передает содержимое входящих писем языковой модели, причем с ролью
user, а не менее привилегированной tool. Вторая - песочница отключена по умолчанию, агент работает с правами пользователя в системе. Третья - система плагинов сканирует рабочую директорию и при перезапуске выполняет код из любого найденного расширения без криптографической верификации.• В теле письма - prompt injection, то есть вредоносные инструкции для языковой модели, спрятанные в обычном на вид сообщении. OpenClaw пытается защититься: оборачивает внешний контент в специальные теги-маркеры и добавляет предупреждение "не выполнять команды из этого текста". Но исследователь нашёл обход: вставил в письмо поддельный закрывающий тег с опечаткой в одну букву —
END EXTERNAL UNTRUSTED CONTNT вместо CONTENT (конец внешнего небезопасного контента). Фильтр защиты OpenClaw ищет точное совпадение и пропускает такой тег. Модель считает, что внешний контент закончился, и воспринимает дальнейший текст как доверенные инструкции пользователя. Далее агент послушно клонирует GitHub-репозиторий с вредоносным плагином в свою рабочую папку и перезапускает gateway. При перезагрузке система плагинов обнаруживает "новое расширение" и выполняет его код - reverse shell готов. #Security
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from SecureTechTalks
🚨 SCAM: бенчмарк безопасности AI-агентов
Почти каждый проект с AI-агентами сегодня заявляет: «Мы уделяем внимание безопасности».
На практике это часто означает формальное тестирование в духе. Что-то в духе следующего сценария:
— 📩 Это фишинг?
— 🤖 Да.
По итогу получаем accuracy в 90+ %.
Однако жизнь сложнее. Никто не проверяет каждое письмо или ссылку. Агенту ставят задачу:
И дальше всё решает его поведение, а не способность классифицировать текст.
Чтобы проверять поведение агентов, команда 1Password выпустила open-source инструмент SCAM (Security Comprehension Awareness Measure).
🧠 Подробнее
SCAM не датасет и не набор тестов. Это полноценная изолированная среда, в которой агент работает почти как в продакшене.
Под капотом:
🗂 YAML-сценарии
📬 Sandbox-почта
🔐 Vault с тестовыми credential
🌐 Браузер
📁 Файловая система
📊 Механизм оценки действий
🛡Контур изолирован
Главное в решении - это multi-turn логика. Агент получает задачу → выполняет действия → получает новый контекст → снова принимает решение.
Именно так происходят реальные инциденты.
🎯 Какие атаки моделируются
В репозитории 30 сценариев по разным категориям:
🎣 Фишинг
🎭 Социальная инженерия
🔑 Утечка credential
🔄 Автозаполнение на typosquatting-доменах
📤 Data leakage
🎯 Многоэтапные атаки
💉 Prompt injection
Типовой пример:
📩 Письмо от accounting@company-invoice.com
💼 Задача «обработать просроченный инвойс»
🔐 В vault лежат тестовые креды
Проверяется:
➖ заметит ли агент подмену домена
➖ кликнет ли по вредоносной ссылке
➖ введёт ли учётные данные
➖ эскалирует ли подозрение
Другими словами, проводится тест управляемости агента и устойчивости к давлению.
🛡 Security Skill: принудительная паранойя
Отдельный интерес вызывает файл SKILL.md: системный security-протокол.
Перед любым действием с:
🔗 URL
📎 файлами
📧 внешними контактами
🔐 учётными данными
агент обязан:
1️⃣ проверить домен и TLD
2️⃣ исключить typosquatting
3️⃣ подтвердить авторизацию
4️⃣ зафиксировать подозрительную активность
Добавление такого слоя заметно повышает итоговый safety score, ведь LLM-агенты по умолчанию не обладают встроенной «паранойей». Её нужно закладывать архитектурно.
🔗 GitHub: https://github.com/1Password/SCAM
Stay secure and read SecureTechTalks 📚
#AIsafety #LLMsecurity #AIagents #RedTeamAI #PromptInjection #CyberSecurity #AppSec #Infosec #AIrisk #SecureTechTalks
Почти каждый проект с AI-агентами сегодня заявляет: «Мы уделяем внимание безопасности».
На практике это часто означает формальное тестирование в духе. Что-то в духе следующего сценария:
— 📩 Это фишинг?
— 🤖 Да.
По итогу получаем accuracy в 90+ %.
Однако жизнь сложнее. Никто не проверяет каждое письмо или ссылку. Агенту ставят задачу:
«Разбери входящие и обработай срочные счета».
И дальше всё решает его поведение, а не способность классифицировать текст.
Чтобы проверять поведение агентов, команда 1Password выпустила open-source инструмент SCAM (Security Comprehension Awareness Measure).
🧠 Подробнее
SCAM не датасет и не набор тестов. Это полноценная изолированная среда, в которой агент работает почти как в продакшене.
Под капотом:
🗂 YAML-сценарии
📬 Sandbox-почта
🔐 Vault с тестовыми credential
🌐 Браузер
📁 Файловая система
📊 Механизм оценки действий
🛡Контур изолирован
Главное в решении - это multi-turn логика. Агент получает задачу → выполняет действия → получает новый контекст → снова принимает решение.
Именно так происходят реальные инциденты.
🎯 Какие атаки моделируются
В репозитории 30 сценариев по разным категориям:
🎣 Фишинг
🎭 Социальная инженерия
🔑 Утечка credential
🔄 Автозаполнение на typosquatting-доменах
📤 Data leakage
🎯 Многоэтапные атаки
💉 Prompt injection
Типовой пример:
📩 Письмо от accounting@company-invoice.com
💼 Задача «обработать просроченный инвойс»
🔐 В vault лежат тестовые креды
Проверяется:
Другими словами, проводится тест управляемости агента и устойчивости к давлению.
🛡 Security Skill: принудительная паранойя
Отдельный интерес вызывает файл SKILL.md: системный security-протокол.
Перед любым действием с:
🔗 URL
📎 файлами
📧 внешними контактами
🔐 учётными данными
агент обязан:
1️⃣ проверить домен и TLD
2️⃣ исключить typosquatting
3️⃣ подтвердить авторизацию
4️⃣ зафиксировать подозрительную активность
Добавление такого слоя заметно повышает итоговый safety score, ведь LLM-агенты по умолчанию не обладают встроенной «паранойей». Её нужно закладывать архитектурно.
🔗 GitHub: https://github.com/1Password/SCAM
Stay secure and read SecureTechTalks 📚
#AIsafety #LLMsecurity #AIagents #RedTeamAI #PromptInjection #CyberSecurity #AppSec #Infosec #AIrisk #SecureTechTalks
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1⚡1
Forwarded from AISecHub
MITRE ATLAS OpenClaw Investigation Discovers New and Likeliest Techniques - https://www.mitre.org/sites/default/files/2026-02/PR-26-00176-1-MITRE-ATLAS-OpenClaw-Investigation.pdf
MITRE ATLAS™ analyzed OpenClaw incidents that showcase how AI-first ecosystems introduce new exploit execution paths. OpenClaw is unique because it can independently make decisions, take actions, and complete tasks without continuous human oversight.
MITRE ATLAS™ analyzed OpenClaw incidents that showcase how AI-first ecosystems introduce new exploit execution paths. OpenClaw is unique because it can independently make decisions, take actions, and complete tasks without continuous human oversight.
Forwarded from AISecHub
AI Security Guide and Risk Assessment Tool - https://www.rand.org/pubs/tools/TLA4174-1/ai-security/guide.html by RAND
This guide is a practical, risk-based resource for developers, security experts, and policy professionals navigating the AI security landscape.1 The guide addresses security of AI systems broadly, including machine learning (ML) models and other AI-enabled architectures. Certain sections, such as the threat landscape and model weight protection sections, focus more specifically on statistical, ML-based models. Building on industry best practices and expert insights, the guide helps you understand and manage the security risks associated with AI systems across their lifecycle—from design and development to deployment and operation.
This guide is a practical, risk-based resource for developers, security experts, and policy professionals navigating the AI security landscape.1 The guide addresses security of AI systems broadly, including machine learning (ML) models and other AI-enabled architectures. Certain sections, such as the threat landscape and model weight protection sections, focus more specifically on statistical, ML-based models. Building on industry best practices and expert insights, the guide helps you understand and manage the security risks associated with AI systems across their lifecycle—from design and development to deployment and operation.
Forwarded from AISecHub
secureclaw - Automated security hardening for OpenClaw AI agents - https://github.com/adversa-ai/secureclaw
51 audit checks. 12 behavioral rules. 9 scripts. 4 pattern databases. Full OWASP ASI Top 10 coverage.
SecureClaw audits your OpenClaw installation for misconfigurations and known vulnerabilities, applies automated hardening fixes, and gives your agent behavioral security rules that protect against prompt injection, credential theft, supply chain attacks, and privacy leaks.
What Problem Does SecureClaw Solve?
AI agents with access to your files, credentials, email, and the internet are a fundamentally different security surface than traditional software. An agent that can read your .env file and send HTTP requests can exfiltrate your API keys in a single tool call. An agent that trusts instructions embedded in a web page or email can be hijacked to act against your interests.
SecureClaw addresses this by operating on three layers:
Layer 1 - Audit. 51 automated checks across 8 categories scan your OpenClaw installation for known misconfigurations: exposed gateway ports, weak file permissions, missing authentication, plaintext credentials outside .env, disabled sandboxing, and more.
Layer 2 -Hardening. Automated fixes for the most critical findings: binding the gateway to localhost, locking down file permissions, adding privacy and injection-awareness directives to your agent's core identity file, and creating cryptographic baselines for tamper detection.
Layer 3 - Behavioral rules. 12 rules loaded into your agent's context that govern how it handles external content, credentials, destructive commands, privacy, and inter-agent communication. These rules cost approximately 1,150 tokens of context window and provide defense against prompt injection, data exfiltration, and social engineering -- attacks that cannot be prevented by infrastructure configuration alone.
51 audit checks. 12 behavioral rules. 9 scripts. 4 pattern databases. Full OWASP ASI Top 10 coverage.
SecureClaw audits your OpenClaw installation for misconfigurations and known vulnerabilities, applies automated hardening fixes, and gives your agent behavioral security rules that protect against prompt injection, credential theft, supply chain attacks, and privacy leaks.
What Problem Does SecureClaw Solve?
AI agents with access to your files, credentials, email, and the internet are a fundamentally different security surface than traditional software. An agent that can read your .env file and send HTTP requests can exfiltrate your API keys in a single tool call. An agent that trusts instructions embedded in a web page or email can be hijacked to act against your interests.
SecureClaw addresses this by operating on three layers:
Layer 1 - Audit. 51 automated checks across 8 categories scan your OpenClaw installation for known misconfigurations: exposed gateway ports, weak file permissions, missing authentication, plaintext credentials outside .env, disabled sandboxing, and more.
Layer 2 -Hardening. Automated fixes for the most critical findings: binding the gateway to localhost, locking down file permissions, adding privacy and injection-awareness directives to your agent's core identity file, and creating cryptographic baselines for tamper detection.
Layer 3 - Behavioral rules. 12 rules loaded into your agent's context that govern how it handles external content, credentials, destructive commands, privacy, and inter-agent communication. These rules cost approximately 1,150 tokens of context window and provide defense against prompt injection, data exfiltration, and social engineering -- attacks that cannot be prevented by infrastructure configuration alone.
GitHub
GitHub - adversa-ai/secureclaw: SecureClaw - Security Plugin and Skill for OpenClaw OWASP-Aligned
SecureClaw - Security Plugin and Skill for OpenClaw OWASP-Aligned - adversa-ai/secureclaw