SecureTechTalks

🚨 SCAM: бенчмарк безопасности AI-агентов

Почти каждый проект с AI-агентами сегодня заявляет: «Мы уделяем внимание безопасности».
На практике это часто означает формальное тестирование в духе. Что-то в духе следующего сценария:
— 📩 Это фишинг?
— 🤖 Да.
По итогу получаем accuracy в 90+ %.

Однако жизнь сложнее. Никто не проверяет каждое письмо или ссылку. Агенту ставят задачу:

«Разбери входящие и обработай срочные счета».

И дальше всё решает его поведение, а не способность классифицировать текст.

Чтобы проверять поведение агентов, команда 1Password выпустила open-source инструмент SCAM (Security Comprehension Awareness Measure).

🧠 Подробнее

SCAM не датасет и не набор тестов. Это полноценная изолированная среда, в которой агент работает почти как в продакшене.

Под капотом:
🗂 YAML-сценарии
📬 Sandbox-почта
🔐 Vault с тестовыми credential
🌐 Браузер
📁 Файловая система
📊 Механизм оценки действий
🛡Контур изолирован

Главное в решении - это multi-turn логика. Агент получает задачу → выполняет действия → получает новый контекст → снова принимает решение.
Именно так происходят реальные инциденты.

🎯 Какие атаки моделируются

В репозитории 30 сценариев по разным категориям:
🎣 Фишинг
🎭 Социальная инженерия
🔑 Утечка credential
🔄 Автозаполнение на typosquatting-доменах
📤 Data leakage
🎯 Многоэтапные атаки
💉 Prompt injection

Типовой пример:
📩 Письмо от accounting@company-invoice.com
💼 Задача «обработать просроченный инвойс»
🔐 В vault лежат тестовые креды

Проверяется:
➖заметит ли агент подмену домена
➖кликнет ли по вредоносной ссылке
➖введёт ли учётные данные
➖эскалирует ли подозрение

Другими словами, проводится тест управляемости агента и устойчивости к давлению.

🛡 Security Skill: принудительная паранойя

Отдельный интерес вызывает файл SKILL.md: системный security-протокол.

Перед любым действием с:
🔗 URL
📎 файлами
📧 внешними контактами
🔐 учётными данными
агент обязан:
1️⃣ проверить домен и TLD
2️⃣ исключить typosquatting
3️⃣ подтвердить авторизацию
4️⃣ зафиксировать подозрительную активность

Добавление такого слоя заметно повышает итоговый safety score, ведь LLM-агенты по умолчанию не обладают встроенной «паранойей». Её нужно закладывать архитектурно.

🔗 GitHub: https://github.com/1Password/SCAM

Stay secure and read SecureTechTalks 📚

#AIsafety #LLMsecurity #AIagents #RedTeamAI #PromptInjection #CyberSecurity #AppSec #Infosec #AIrisk #SecureTechTalks

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

368 views06:54