Заметки LLM-энтузиаста
398 subscribers
125 photos
14 videos
1 file
150 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и LLM-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
Уязвимости ИИ-агентов: часть III и IV

В продолжении поста хотелось бы взять на заметку описанные ниже угрозы безопасности для агентных и мульти-агентных систем.
Я думаю, что сейчас в связи со снижением порога входа в разработку методом Vibe Coding, мало кто обращает внимание на такие угрозы, и через некоторое время в погоне за скоростью разработки и повсеместным внедрением GenAI мы можем столкнуться с ростом атак и компроментацией более сложных систем, которые начнут включать в себя программные модули, использующие GenAI как в своей непосредственной работе, так и на этапе своей разработки.

Часть III. Как скрытые инструкции крадут данные 🔓

Исследователи Trend Micro обнаружили серьезные проблемы безопасности в мультимодальных ИИ-агентах. Злоумышленники могут внедрять скрытые команды в изображения и документы, заставляя ИИ передавать конфиденциальные данные без ведома пользователя.

Что такое непрямая инъекция промптов? 🎯

Это скрытая атака, при которой вредоносные инструкции маскируются в обычном контенте:

• Веб-страницы — скрытые команды в HTML-коде
• Изображения — невидимый текст в "пустых" картинках
• Документы — скрытые инструкции в Word-файлах

Какие данные под угрозой? 📊

1️⃣ Персональные данные (имена, email, телефоны) 2️⃣ Финансовая информация (банковские реквизиты) 3️⃣ Медицинские записи 4️⃣ Коммерческие секреты 5️⃣ API-ключи и пароли 6️⃣ Загруженные документы

Реальный пример атаки 💀

Исследователи создали PoC-агента "Pandora", который продемонстрировал:

• Обработку вредоносного Word-документа "CV – Actor.docx"
• Извлечение и выполнение скрытого Python-кода
• Передачу данных на сервер злоумышленников
• Завершение с сообщением "Task complete"

Как защититься? 🛡

• Ограничить сетевые подключения к непроверенным URL
• Использовать фильтры для анализа загружаемого контента
• Применять OCR для обнаружения скрытого текста
• Внедрить системы мониторинга подозрительного поведения
• Очищать пользовательский ввод от потенциально опасных команд

Проблема особенно актуальна для ChatGPT Data Analyst и других ИИ-сервисов с возможностью выполнения кода.
Даже при использовании продвинутых моделей вроде GPT-4o уязвимости остаются, если отсутствуют защитные механизмы на уровне сервиса. То есть, задачу обеспечения безопасности должны решать именно разработчики! (не администраторы инфраструктры, и даже не DevSecOps!). Если мы говорим про Vibe Coding, то в PRD (а лучше прямо на уровне проектных правил для AI-кодинга) нужно закладывать соответствующую функциональность.

Часть IV: Уязвимости ИИ-агентов: угрозы доступа к базам данных 🔐

Исследователи Trend Micro выявили критические уязвимости в ИИ-агентах, работающих с базами данных. Злоумышленники могут эксплуатировать эти слабости для кражи данных и мошеннических атак.

Основные угрозы 🎯

1. Уязвимости генерации SQL-запросов
• Атакующие могут обойти защитные механизмы
• Получить доступ к конфиденциальным данным сотрудников
• Использовать методы джейлбрейкинга для обхода ограничений

2. "Сохраняющаяся" инъекция промптов
• Вредоносные промпты внедряются в пользовательские данные
• Активируются при последующих запросах к ИИ
• Могут привести к рассылке фишинговых писем

3. "Отравление" векторных хранилищ
• Атака на системы семантического поиска
• Злоумышленники внедряют вредоносный контент
• Срабатывает при похожих запросах других пользователей

Процесс атаки 🔄

1️⃣ Разведка - изучение структуры базы данных 2️⃣ Внедрение - размещение вредоносного контента 3️⃣ Активация - срабатывание при запросах пользователей 4️⃣ Эксплуатация - кража данных или распространение фишинга

Последствия 💥
• Кража персональных данных
• Фишинговые атаки внутри организации
• Финансовые потери • Репутационный ущерб
• Нарушение регулятивных требований

Защитные меры 🛡
• Надежная санитизация входных данных
• Продвинутое определение намерений (можно использовать классификатор)
• Строгий контроль доступа
• Постоянное обновление мер безопасности

#security #agents #prompt_injection #data_exfiltration #cybersecurity