PWN AI
4.15K subscribers
540 photos
8 videos
48 files
442 links
Хроники о небезопасном ИИ
Не нравится? Смени телек.
Вайбы мл, ллм и кибербеза.

На некоммерческой основе.

"Мнение автора" != "Мнение компании, где автор работает".

Папка по безопасности ИИ:
https://t.me/addlist/l9ZMw7SOW9hjYzUy
Download Telegram
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Немного оффтопа. В конце марта мне одобрили доступ к manus.im - это мощная мультиагентная система, которая может проводить глубокие исследования, делать приложения и много чего ещё. О manus написано много в интернете.

Процесс одобрения для использования - не всегда быстрый. Но сегодня мне насыпали несколько инвайт кодов, с которыми я хочу с вами поделиться. Сразу говорю - разобрать их могут быстро. Работает под ВПН и это печально.

1. https://manus.im/invitation/TGV2JXVUJES0MIR
2.
https://manus.im/invitation/LOCWG1TXETCU
3.
https://manus.im/invitation/BSJY1NP38BWABU
4. https://manus.im/invitation/TSUYD9VSUCTI4

Держите ещё:

1.https://manus.im/invitation/KPNISR6CIPE7X
2.https://
manus.im/invitation/IWGEWTVAQGZS0
3.https://
manus.im/invitation/NIGBBKPD0NPT
4.https://
manus.im/invitation/YST9ODU2QNZZA

и эти улетели(

В целом он неплох в аналитике большого количества информации по нашей теме. Более того, в марте попробовал реализовать через него атаку по новой статье для инструмента llamator. В целом он справился на 90 процентов)).

Из опенсурсного недавно появилась SUNA, которая пока что работает с проприетарными моделями )) но было бы классно прикрутить к ней каких-то агентов для ИБ задач.

В комментариях можете поделиться инвайтами, если не жалко. А для тех кто активировал инвайт - https://github.com/hodorwang/manus-guide - очень полезный гайд по использованию.
0din.ai, багбаунти площадка для GenAI - как оказалось форкает к себе очень интересные репозитории

https://github.com/orgs/0din-ai/repositories

иногда можно сюда заглядывать, чтобы обнаружить новый инструмент для себя, а также датасеты для атак на модели. Не всё конечно же потом обновляется - но всё равно, можем забрать к себе для охоты.
Please open Telegram to view this post
VIEW IN TELEGRAM
Друзья, не забываем про волшебную папку с каналами хороших товарищей. Многие из них также пишут по AI Security, Mlsecops и т.д

На русском языке достаточно сложно найти авторский контент по теме - но тут можно открыть для себя что-то новое.


https://t.me/addlist/KCiPH2pclCc3MDU6
Горжусь за ребят.

2ой поток прошёл незаметно - я принимал активное участие в разработке материалов, как и в первом потоке. В этом году мы решили разбавить материал историей с агентами, дать побольше практики. Результаты ребят-студентов вы можете видеть в статьях, ну и llamator обзавёлся атаками из "горячих статьей".
Forwarded from AI Security Lab
Завершился курс Безопасность ИИ от нашей лаборатории в магистратуре AI Talent Hub ИТМО 🧑‍🎓

Итоги:
➡️ 32 участника
➡️ >20 протестированных и защищенных AI-приложений

➡️ 7 новых атак на LLM и VLM в open source инструменте LLAMATOR:
🔘 Shuffle Inconsistency
🔘 Dialogue Injection Devmode
🔘 Dialogue Injection Continuation
🔘 Deceptive Delight
🔘 VLM Low Resolution
🔘 VLM Text Hallucination
🔘 VLM M-Attack

➡️ 3 статьи о взломах генеративного ИИ:
🔘 Исследование уязвимостей LLM: опыт Red Teaming
🔘 Соревнование по взлому ИИ в стиле фильма "Матрица"
🔘 Современные уязвимости современных LLM-агентов

➡️ 2 открытые лекции:
🔘 Почему бенчмарки лгут? Как правильно оценить LLM для ваших бизнес-задач — Роман Куцев, founder LLM Arena
🔘 RuAdaptQwen и безопасность — Михаил Тихомиров, создатель Ruadapt, научный сотрудник НИВЦ МГУ

До встречи в следующем учебном году!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from SecAtor
CISA предупреждает о том, что злоумышленники активно используют недавнюю критическую уязвимость в низкоуровневом конструкторе ИИ Langflow в неконтролируемых масштабах.

Langflow
- это основанный на Python, независимый от LLM конструктор искусственного интеллекта, представляющий собой настраиваемую визуальную среду, которая поддерживает разработку многоагентных и поисковых приложений дополненной генерации (RAG).

Инструмент, имеющий почти 60 тыс. звезд и 6,3 тыс. форков на GitHub, используется разработчиками ИИ, исследователями и стартапами для создания прототипов чат-ботов, конвейеров данных, систем агентов и приложений ИИ.

Отслеживаемая как CVE-2025-3248 (CVSS 9,8) и раскрытая в начале апреля ошибка описывается как проблема внедрения кода в конечную точку проверки кода, устранена в версии Langflow 1.3.0.

Удаленный и неаутентифицированный злоумышленник может отправлять специально созданные HTTP-запросы для выполнения произвольного кода.

9 апреля Horizon3.ai опубликовала технические подробности об уязвимости, предупредив, что PoC, нацеленный на нее, уже выпущен и его можно использовать для получения полного контроля над уязвимыми серверами.

После публикации отчета Horizon3.ai и появления PoC исследователи SANS заметили всплеск обращений к уязвимой конечной точке Langflow.

Уязвимый код присутствует в самых ранних версиях Langflow, выпущенных два года назад. Проведенное исследователями тестирование показало, что большинство версий до 1.3.0, если не все, подвержены эксплуатации.

Причем Horizon3.ai отмечает, что смогла обнаружить несколько путей эксплуатации ошибки для удаленного выполнения кода.

При этом исправление в версии 1.3.0 добавило требование аутентификации, но не полностью устранило уязвимость. Ограничение сетевого доступа к фреймворку должно устранить риск эксплуатации.

Технически эта уязвимость все еще может быть использована для повышения привилегий от обычного пользователя до суперпользователя Langflow, но это уже возможно и без этой уязвимости.

Исследователи обращают внимание также на то, что не совсем понятно, зачем Langflow разделяет суперпользователей от обычных пользователей, если все обычные пользователи по умолчанию могут выполнять код на сервере.

Результаты сканирования Censys указывают на существование около 460 хостов Langflow, доступных через интернет. Однако неясно, сколько из них уязвимы.

CISA
не предоставила никаких конкретных подробностей о наблюдаемой активности по эксплуатации и заявила, что в настоящее время неизвестно, используют ли уязвимость банды вымогателей.

Но будем посмотреть.
Please open Telegram to view this post
VIEW IN TELEGRAM
И последняя статья - ACE: A Security Architecture for LLM-Integrated App Systems. По сути это архитектура разделяет процесс планирования и выполнения задачи моделью на этапы, используя доверенную информацию для создания абстрактного плана(планы подвергаются анализу) и контролируя его отображение на конкретные действия приложений. Авторы пишут что такая архитектура гарантирует, что выполнение задач происходит в строгом соответствии с ранее утвержденным доверенным абстрактным планом. Любые попытки отклониться от этого плана или нарушить установленные политики безопасности блокируются.🌿


А ещё недавно прогремел RSAC, с которого к сожалению пока не видно публикаций - разве что HiddenLayer рассказали о своём исследовании насчёт DeepSeek. Хотя там довольно много компаний по AI Security были, так что возможно позднее будет больше информации. 😵
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышел новый документ OWASP: Agent Name Service (ANS) for Secure AI Agent Discovery. По сути — это аналог старой концепции реестра микросервисов, знакомый многим бекенд разработчикам. В данном случае корректнее сказать, что Кен Хуанг выпускает ещё один свой документ (если не ошибаюсь, уже четвёртый за последний квартал), прикрываясь брендом OWASP.

Предложенный подход представляет референсную архитектуру для агентных систем. Недавно Кен также представил Zero Trust Agent (ZTA) Framework, который выполняет аналогичную функцию, в основном — маркетинговую. Если вы начнёте читать документ, то бонусом получите главу с анализом рисков нового сервиса по методу MAESTRO, которую Кен успешно запустил месяц назад.

Маловероятно, что ANS будет принят на уровне, сравнимом с MCP или A2A.

Может показаться, что я излишне критичен к документу. Кен — хороший автор и талантливый пиарщик своих инициатив, но качество публикаций низкое и их практическая применимость вызывает вопросы. В OWASP существует внутренняя политическая игра между инициативой AI Exchange и проектом GenAI. Пограничные документы, вроде этого, публикуются без какой-либо валидации. В нашей рабочей группе Agentic Security Initiative, например, даже не было анонса нового discovery-сервиса.

Главное отличие маркетингового документа от технического протокола или фреймворка — это наличие поддержки и версионирования. Многие публикации, после масштабных LinkedIn-релизов, были заброшены и больше не обновляются.
В последнее время часто вижу термин Internet Of Agents(IoA). Мы уже с вами прекрасно понимаем ландшафт угроз для обычных агентных систем. Но в чём особенность именно агентного интернета ?

Под IoA сейчас понимают инфраструктуру центричность которой поставлена на агентах, взаимодействие с ними вне рамках обычных сетей организаций а также чтобы они могли координированно выполнять задачи.

Для коммуникации между агентами в такой сети реализовано большое множество протоколов – самый известный MCP, но как правило – не единственный (подробнее на рис.1).

Мы должны понимать самое важное что в такой сети может использоваться множество LLM как ядра определённых систем, следовательно – они могут наследовать проблемы самих моделей. Важный фактор что такие системы пока что могут быть децентрализованными(рано или поздно будут регуляторы, реестры и т.д). И хоть кажется что реализация такой сети будет иметь большие преимущества(безусловно это так). Но риски ИБ тут никто не отменял.

В статье Security of Internet of Agents: Attacks and Countermeasures рассматривается некая модель угроз для такой площадки. IoA переваривает множество персональной информации, коммерческих данных и из-за этого вопрос безопасности аутентификации между агентными системами – является критически значимым.

В статье определяют несколько угроз:
⁉️Подделка идентичности - злоумышленники создают поддельные идентификаторы агентов.
⁉️Имперсонификация - злоумышленники выдают себя за легитимных агентов
⁉️Атаки типа Sybil -когда создаётся множество фиктивных идентичностей для манипуляции системой
⁉️Каскадные атаки - неточные или противоречивые выходные данные LLM могут распространяться и усиливаться через последующие взаимодействия агентов в самой системе
⁉️А также … Скрытый сговор – агенты могут начать сотрудничать для достижения целей, которые будут противоречить интересам пользователя.

Несоменно в своё видение угроз авторы добавили RAG, достаточно очевидно и можно согласиться.
Авторы также предложили пока что теоретические варианты митигаций:

Внедрять механизмы (пока что не агентов), которые бы смотрели наличие сговора.

Системы репутации и реестры на основе блокчейна, а также контроль доступа, зависимый от контекста самой агентой системы.

Да, пока что это выглядит слишком концептуально, да и честно сказать с трудом вериться в то, что LLM будет активно оценивать результаты других агентов. Но проблема становиться виднее.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Борис_ь с ml
Итак, доклад по безопасности AI-агентов, MCP и A2A, который я прочитал с коллегой на Форуме "Технологии Доверенного ИИ"
#иб_для_ml

Файл вы найдете ниже под постом

Более того, я собираюсь сделать небольшую серию постов, согласно оглавлению доклада.

О чем же он был?

Во введении мы рассказали про понятие AI-агентов как таковых, немного раскрыли их отличие от просто чат-ботов или RAG. Привели определение мультиагентной системы и представили схему объектов защиты на основе модели угроз AI, представленной Сбербанком.
Далее раскрыли суть понятия MCP, конечно же со схемкой, и дали описание одной из возможных атак на этот протокол: Tool Poisoning Attack.
После чего - аналогично с A2A и атакой Privilege Escalation.

Главный интересный раздел - безопасность систем на стыке этих протоколов, пример атаки, эксплуатирующей их несогласованность, и главное - модель угроз для систем на протоколах MCP+A2A.

В качестве завершения - возможные меры защиты, мои выводы и пучок полезных ссылок по поводу)

Остаемся на связи, скоро расскажу про все подробнее.
Forwarded from Борис_ь с ml
mcp a2a security pub.pdf
3.2 MB
Forwarded from OSINT mindset
Уже скоро OSINT mindset conference #7! А значит мы готовы представить наших спикеров: 🔥

sled_tut — Ваша мама в сетке: раскрываем неочевидные связи между телеграм-каналами

nicksinus — Портрет закладки

Adk — Gaming OSINT

crytech7 — Messages Sent to the Void: Tracking Transactions to Ethereum Null Address

Riaria — Как интернет, технологии и социальные сети портят жизнь тем, кто ворует искусство

Помимо докладов мы, как обычно, готовим для вас стенды LockPick и OSINT Village! 🔍

Ждём всех 31 мая в 13:00 (UTC+3) в Благосфере, м. Динамо, 1-й Боткинский проезд, д. 7c1. Мероприятие полностью бесплатное, без регистрации и возрастного ограничения

Также если вы представитель СМИ или блогер и планируете посетить конференцию, чтобы в дальнейшем написать про неё, просим заполнить анкету.

🌐Site | 💬 Forum | 🔍 Family |YT
Please open Telegram to view this post
VIEW IN TELEGRAM
ChatGPT – В С Ё.😁😁😁 Буквально позавчера Anthropic выпустили Claude 4, Sonnet & Opus. Новая модель. Лучше в агентах, лучше в рассуждениях. Но как дела с безопасностью?

Хотел бы начать с анализа системной карты. Но нет, чуть позже. Anthropic выпустили свой стандарт ASL(AI Safety Level-3). Стандарт основывается на двух ключевых компонентах – Методы развёртывания и методы безопасности. Практики, применяемые к ним, и формируют уровни. Anthropic присвоили своей модели 3й уровень, что говорит о высоком уровне защищённости. Хотя уже вчера в аккаунте Plini появилась информация о том, что можно всё-таки джейлбрейкнуть, он отмечает о том, что это стало сложнее – но метод 2024 года смог сработать.

Anthropic отмечают – что стандарт не является полностью сформированным. И даже говорят, что это предупредительная и временная мера.

Компания еще не определила окончательно, превысил ли Claude Opus 4 порог возможностей, требующий защиты ASL-3. Однако из-за продолжающегося улучшения знаний и возможностей, связанных с генерацией ответов на запросы про бомбу, Anthropic решила, что невозможно однозначно исключить риски ASL-3 для Claude Opus 4 так, как это было возможно для предыдущих моделей.

Стандарт интересный, описывают и интеграцию багбаунти и меры защиты в виде контроля Endpoint, жизненного цикла и мониторинга. Про ASL-3 можно написать один большой пост. Но я рекомендую вам ознакомиться с ним самостоятельно. Кстати, Claude 3.5 они оценивают на ASL-2. 2-й уровень включает базовую защиту от попыток кражи весов и подразумевается, что модель обучена говорить «нет» на опасные запросы.

Что было сделано в 4-й модели?

По сути, как они пишут – была доработана концепция Constitutional Classifiers — системы, где классификаторы в реальном времени, обученные на синтетических данных, отслеживают вредоносные запросы и отклоняют их. Модель проверяли на бенчмарке StrongREJECT, в качестве атакующей модели использовали Claude Sonnet 3.5, без alignment. Она генерировала джейлбрейки и, ожидаемо, показатели модели с точки зрения безопасности при таком подходе оценки – стали выше. Anthropic реализовали механизм быстрого устранение джейлбрейков. Модель генерирует синтетику на основе подозрительного ввода и на основании этого происходит дообучение классификаторов.

В системную карту также включили подробную оценку того как работает элаймент. Разные категории рисков: предвзятость, соответствие вредоносным инструкциям, скрытые намерения, и плохие рассуждения – всё это учитывается при элайменте.

Ну а в заключении хочется сказать про агентов. Anthropic говорят что они усилили безопасность модели с точки зрения применения как ядра агентной системы: Например реализовали механизмы оценки злонамеренного использования компьютера, классификатор доработали для защиты от инъекций – также при ComputerUseAgent mode. И конечно же постарались сделать безопасным вайб-кодинг. В плане того, что усилили механизм предотвращения вредоносной генерации кода агентами.