ML&|Sec Feed
1.02K subscribers
1.07K photos
63 videos
271 files
1.65K links
Feed for @borismlsec channel

author: @ivolake
Download Telegram
DARPA запускает программу роевого ИИ

DARPA выпустило приглашение на «День для потенциальных подрядчиков» перед планируемым запуском программы MATHBAC — «Математика усиления агентной коммуникации».

Суть программы — создать для нужд обороны новое поколение платформ агентного искусственного интеллекта: систем из множества ИИ-агентов, которые самостоятельно общаются между собой, распределяют задачи и совместно находят решения.

MATHBAC — это попытка научить рои ИИ-агентов думать, общаться и принимать решения быстрее любого человека, используя математику, теорию информации и теорию систем.

Один из ключевых пунктов программы — ИИ-агенты должны не просто решать задачи, но и понимать принципы собственного функционирования. Американцы хотят создать ИИ, который сам себя «чинит» и «переучивает» в полевых условиях.

DARPA ищет компактные, быстрые и специализированные ИИ-системы, а не громоздкие языковые модели вроде ChatGPT. Такие системы можно разместить на боевом корабле, самолёте или спутнике — они будут работать без подключения к облаку.

🔒DARPA&CIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AISecure
Зарелизилось еще одна прикольная серта по AI Sec

Будем посмотреть, детали потом постараюсь накинуть

А пока просто ссылка https://academy.hackthebox.com/preview/certifications/htb-certified-offensive-ai-expert

И не забываем что есть такой AI Sec Certs Landscape.

PS еще бы время на это дело найти)
🔥3
Почему модели тяготеют к правде?

Модель, это по факту большой компрессор, который в сохраняет информацию в своих весах при обучении. А какие данные хорошо компрессятся? Правильно, согласованные данные. Эзотерика, теории заговора и тупо ошибки плохо согласуются с общей картиной мира, поэтому, даже когда в обучающем датасете полно мусора (вплоть до 90%), модель все равно выучивает правду

Подробнее об этом написал мой коллега, Костя Крестников, в своем исследовании

П.С. Важный вывод, который делает Костя — "Координированная дезинформация для компрессора неотличима от правды"
Hyundai смогли запустить конвейерное производство гуманоидных роботов Boston Dynamics.

Это создает потенциал для развития этой индустрии, и появлению в 2030-2035 нового бума - массового распространения роботов.
Соответственно, для кибербезопасности ИИ - новый объект защиты, вызов, задачи и конечно решения.
Какими будут гардрейлы для роботов?.. Как предотвратить бунт роботов на dark factory?
Я в предвкушении)

https://www.youtube.com/watch?v=Bo0PcuqjNhE
Forwarded from GitHub Community
MedgeClaw — помощник на основе искусственного интеллекта с открытым исходным кодом для исследований в области биомедицины.

Создан на основе Claude Code и обладает 140 научными навыками K-Dense, панелью мониторинга в реальном времени и интеграцией с RStudio/JupyterLab.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GitHub Community
ClawRouter — это интеллектуальный маршрутизатор больших языковых моделей с открытым исходным кодом, который снижает затраты на использование API ИИ на 92 %.

Он анализирует каждый запрос по 15 параметрам и менее чем за 1 мс перенаправляет его на самую дешёвую из доступных моделей, причём делает это локально.

ClawRouter — единственный маршрутизатор больших языковых моделей, созданный для автономных ИИ-агентов.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from Data Secrets
В Китае завирусился проект Colleague Skill – система для оцифровки живого сотрудника в ИИ-агента

https://github.com/titanwings/colleague-skill

Некто сделал опенсорсный проект под флагом “Distill your colleague into an AI Skill”, и за пару дней он набрал почти 9к звезд. По сути, проект позволяет собрать цифрового двойника сотрудника.

Просто загружаешь рабочие чаты, письма, результаты работы и прочее, и это превращается в базу знаний и упакованные скиллы для агентов с инструкциями о том, как человек работает и решает задачи, чем и как при этом пользуется, как общается и тд.

С одной стороны удобно, можно же сделать цифровую копию самого себя ☕️

Но в китайских медиа типа RedNote пишут, что проект начали массово использовать коллеги против коллег. Люди буквально обучают агентов для выполнения задач других сотрудников, готовясь к моменту, когда руководство решит кого-нибудь уволить и надеясь, что так они защитят от увольнения самих себя.

На этом фоне уже даже начали появляться всякие Anti-distillation tools, которые портят ваши логи и документацию так, чтобы агент не смог на них "обучиться".

Вот так.
Please open Telegram to view this post
VIEW IN TELEGRAM
Интересная модель описывается BitDefender. Называется vibeware, то есть использование LLM для написания вредоносного кода. Но особенность в том, что злоумышленники добавляют специальный компонент, который транслирует код на C++ или C# в редкие, нишевые языки программирования, например, Crystal, Zig, Nim, что позволяет обходить средства обнаружения, "заточенные" под более распространенные языки программирования. В исследовании и другие интересные примеры индустриализации ИИ при написании вредоносов описаны – стоит ознакомиться... 🤔

#malware #ии #ttp
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from Похек
Ваш LLM-агенты в зоне риски: 3 кейса и чек-лист
#ai #security #llm #агенты #agent

♾️Кейсы♾️

➡️ McKinsey: автономный агент-пентестер нашёл в их системе классическую SQL-инъекцию. Через неё можно было подменять промт агента, который крутится поверх данных. Отравление + classic injection = полный compromise. Нашёл не человек - нашёл другой агент.
➡️ EchoLeak (CVE-2025-32711): zero-click в Microsoft 365 Copilot. Атакующий присылает письмо с prompt injection, пользователь просит Copilot сделать summary - данные утекают без единого клика. XPIA-классификаторы прошли мимо, потому что prompt был написан "для человека".
➡️ s1ngularity (NX, август 2025): supply chain на npm-пакет NX. Вместо того чтобы грепать диск, зловред натравливал Claude Code, Gemini CLI и Amazon Q искать секреты. Первая AI-weaponized supply chain атака: ~2300 секретов из 1300+ репозиториев.

♾️Главный тейк♾️

Промт и данные в LLM неразделимы. SQL можно изолировать программно, а LM останется уязвимой всегда: регулярки ловят ~50%, классификаторы ~25%, LLM-guard ещё ~15%. Оставшийся 1% с нами навсегда.

♾️Чек-лист на прод♾️

▪️Allowlist тулов + tool gating
▪️Разделение промта, памяти и данных в разных хранилищах
▪️Инвентаризация агентов и их исходящих коннектов
▪️Observability - логируй промты и tool calls
▪️Никакого выхода в интернет без прослойки
▪️Не доверяй README, .env и RAG-чанкам
▪️Red-teaming при каждой смене модели
▪️Мониторинг supply chain: MCP, скиллы, скачиваемые протоколы

Агенты разрешают всё по чуть-чуть: сначала read, потом create, потом delete. И вот ты уже доверил rm -rf свежей модели на ноуте с продакшн-ключами.

♾️Где это обсудить вживую♾️

22 апреля в Москве South HUB проводит клубную встречу "Кибербезопасность в эпоху AI-агентов". Формат - открытая дискуссия без докладов и слайдов. Среди спикеров Андрей Кузнецов (Head of ML, Positive Technologies) - один из участников того самого подкаста, Артём Гутник (CISO НСПК), Алексей Леднев (PT ESC) и Алексей Лукацкий. Рега ТУТ
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from ML Underhood
Долгое бодрствование агентов — как мы построили платформу Agent Transport System для Алисы AI

Агент «Исследовать», о котором мы писали ранее, должен быть устойчивым к непредвиденным ситуациям. Собственно, исследование — процесс комплексный, требующий проанализировать несколько источников, вызвать разные инструменты и запустить модели. Если где-то что-то упадёт, то всё придется начинать сначала. Чтобы этого не происходило, в Яндексе использовали платформу Agent Transport System (ATS). О ней на Хабре рассказал Алексей Логинов, ведущий разработчик в команде, которая отвечает за инфраструктуру Алисы AI. Кратко выделим главное.

Сперва агентский режим ассистента реализовали на OpenAI Agents SDK. Это работало, но стейты выполнения хранились локально, а при любых сбоях приходилось начинать всё заново. Нужно было найти такое решение, которое позволяло бы продолжать работу именно из состояния до падения. Кроме того, хорошо бы иметь под капотом распределённое выполнение, чтобы агенты и тулы взаимодействовали друг с другом, находясь на разных хостах.

Для построения отказоустойчивых систем хорошо подходит фреймворк Temporal. Он оперирует двумя типами сущностей: workflow (объект с состоянием, который описывает последовательность шагов) и activity (функции, которые вызываются из workflow). Фреймворк фиксирурет решения, принятые workflow, и результаты завершённых activity. В случае падения Temporal восстанавливает выполнение, не вызывая уже сделанные activity.

Однако Temporal не умеет в стриминг, а агенту было бы хорошо выдавать ответы пользователю по мере их получения. К тому же агенты, написанные на Temporal, привязываются к Temporal SDK, что может быть не слишком удобно в случае «переезда» в будущем.

Поэтому Temporal взяли как основу для надёжности, а уже на фреймворке построили центральный сервер платформы — ATS, чьи протоколы и реализуют агенты. ATS также берёт на себя, например, оркестрацию и транспортировку данных и событий между агентами, тулами и моделями на разных хостах. В итоге схема работы выглядит так:

1. Клиент отправляет запрос в ATS.
2. ATS делает запрос в Temporal на запуск workflow. Temporal запускает workflow.
3. Workflow делает запрос в Temporal на запуск activity корневого агента. Temporal запускает activity корневого агента.
4. Activity корневого агента поднимает двунаправленный gRPC-стрим к сервису агента.
5. Если агенту нужно вызвать модель / инструмент / дочернего агента — он просит ATS, ATS сообщает workflow о необходимости запустить activity (signal/update).
6. Workflow запускает соответствующую activity.
7. Activity поднимает двунаправленный gRPC-стрим к сервису.
8. Все activity одного workflow общаются между собой через in-memory-очереди от дочернего activity к родительскому — так чанки данных передаются в реальном времени.
9. Корневой агент пишет свои чанки во внешний стриминговый сервис — пользователь видит ответ по мере выполнения.
10. Завершённые activity возвращают результаты workflow — Temporal сохраняет их.

В случае сбоя ATS начинает взаимодействовать с агентом заново. Когда агент просит вызвать инструмент, модель или дочернего агента, ATS проверяет, есть ли в хранилище какой-то результат работы по этому запросу с прошлого раза. Если да, то агент получает результат и шаг за шагом «перематывается вперёд» до состояния, в котором он был до сбоя, без повторных вызовов тяжёлых LLM и инструментов.

А подробнее о том, как всё устроено, читайте на Хабре.

ML Underhood
Forwarded from CyberSecurityTechnologies
PIArena.pdf
1 MB
#tools
#MLSecOps
"PIArena: A Platform for Prompt Injection Evaluation",
Apr. 2026.

]-> Tool and datasets
Forwarded from CyberOK_news
Применение AI-агентов в разработке программного обеспечения стремительно расширяется — и вместе с ним расширяется поверхность атаки, которую традиционные практики безопасной разработки попросту не покрывают.

«Мы фиксируем, что команды внедряют агентные инструменты быстрее, чем успевают выстроить адекватные практики безопасности. Классический SAMM даёт хорошую основу, но что делать, когда агент начинает самостоятельно вызывать инструменты, читать внешний контекст и действовать автономно без человека в цикле?», — Сергей Гордейчик, CEO CyberOK.

Чтобы закрыть этот пробел, мы публикуем Agentic SAMM (ASAMM) — исследовательский фреймворк, расширяющий OWASP SAMM для систем с AI-агентами.

Ключевые концепции:

Контекст — плоскость управления. Всё что агент читает может стать инструкцией. Вызов инструмента — граница безопасности. Авторизовано не означает согласовано с задачей. Окно автономии — измеримый риск: произведение времени без контрольной точки на взрывной радиус доступных действий.

Фреймворк включает таксономию угроз (C1–C4), двухосевую модель доверия, 17 контролей по 5 функциям SAMM с уровнями зрелости L1–L3 и маппингом на NIST AI RMF, NCSC и ГОСТ Р 56939-2024.

Два пути внедрения: миграция с существующей программы безопасности или новое развёртывание с нуля.

Документ открыт для рецензирования. GitHub:

https://github.com/scadastrangelove/asamm

Русская версия с детальным маппингом по параграфам ГОСТ Р 56939-2024 доступна там же.
Forwarded from CyberOK_news
asamm-ru.pdf
223.7 KB
Agentic SAMM — русская версия для комментариев и отзывов.
Forwarded from Makrushin
Давно не виделись. Нашел два повода для встречи.

Завтра на продуктовой аллее DevOps Conf проведу питчинг SourceCraft и расскажу про ключевые обновления, которые позволят быстрее и безопаснее создавать новые продукты. Спойлер: релизим новые AppSec и ИИ-фичи.

Послезавтра представлю результаты нового исследования — «Атаки на ИИ-агентов».

Покажу, какие возможности есть у редиски, чтобы за несколько часов скомпрометировать тысячи разработчиков через их же ИИ-инструменты и украсть секреты с рабочих станций. Разберём поверхность атаки, а на выходе получим методику и инструменты для тех, кто строит агентные системы и хочет сделать их устойчивыми.

Если будешь на площадке, то заходи в гости.
Forwarded from Хабр / ML & AI
Архитектура Openclaw: сущности и их взаимодействие

Моя боль:

Читая документацию openclaw и делая установку я смутно понимал что я сейчас делаю и для чего, много новых хоть и знакомых терминов (gateway, node, session, …). Так не пойдет, нужна более явная картина. И я пошел за советом к своему другу ИИ.

Цель статьи:

OpenClaw — это мощный, и поэтому довольно сложный инструмент с большим количеством сущностей и связей между ними. Если знать как он устроен на самом высоком уровне, то это дает хорошую возможность понимать, как его можно использовать для своих конкретных задач и жизненных сценариев. О некоторых сущностях (а значит возможностях) я до этой переписки не знал.

Статья не только раскрывает архитектуру openclaw, но и разбирает его через реальные кейсы из сообщества. Читать далее

#openclaw | @habr_ai
Forwarded from AISecHub
Open-source cross-modal and multimodal prompt injection test suite. 38,000+ attack payloads across text, image, document, and audio modalities. Research-backed by OWASP LLM Top 10, CrossInject (ACM MM 2025), FigStep (AAAI 2025), DolphinAttack, and CSA 2026.

https://huggingface.co/datasets/Bordair/bordair-multimodal
Forwarded from AISecHub
https://github.com/XiaoYiWeio/deepsafe-scan

XiaoYiWeio/deepsafe-scan: Universal preflight security scanner for AI coding agents — Detects hooks injection, credential exfiltration & backdoors in .cursorrules, CLAUDE.md, AGENTS.md and more