ML&|Sec Feed
1.02K subscribers
1.07K photos
63 videos
271 files
1.65K links
Feed for @borismlsec channel

author: @ivolake
Download Telegram
Forwarded from GitHub Community
MLE-agent — ваш интеллектуальный помощник в разработке и исследованиях в области искусственного интеллекта.

Интеграция с arxiv и статьями с кодом для улучшения планов по разработке и исследованиям.

Поддерживаются OpenAI, Anthropic, Gemini, Ollama и другие.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
В последнее время у меня много выступлений на тему ИИ (удивительно, да). В четверг выступал на форуме DATA + AI 2026 с рассказом о безопасности ИИ-агентов. Выделено было всего 20 минут, так что успел только пройтись по верхам. Но зато хоть вышел за рамки привычных рассказов о безопасности чатботов LLM.

#ии #стратегия #презентация #мероприятие
Архитектура Безопасных AI-Агентов

Приветик, мои дорогие коллеги и самые талантливые друзья!

Весьма интересное и хорошо структурированное руководство по безопасной архитектуре ИИ-агентов, полностью доступное онлайн и бесплатно. Рекомендую к изучению (хотя бы сделайте беглый обзор). Подобный работ я еще не встречал, тем более тема горячая (да все только и делают, что говорят про ИИ-агентов))), поэтому важно находить крупицы времени и продолжать изучение этого направления.

Ссылка: https://agent-axiom.github.io/agent-arch/

Архитектор MLSecOps и AI Governance
Николай Павлов
🔥1
ИИ-агент под охраной.

Итак, относительно недавняя новость: исследователи предложили концепцию, в которой агентного ИИ-работника, умеющего что-то делать с последствиями в реальном мире, для безопасности стоит заключить в виртуальную камеру-песочницу.

И поставить на периметре ИИ-охранника, чтобы бил первого по рукам, когда тот попытается натворить что-то не то, в соответствии с политикой безопасности.

Инструкции для неё, то есть “конституцию безопасности”, можно писать на обычном языке, в данном случае английском.

Не специалист по соответствующим технологиям, по существу могут прокомментировать “настоящие сварщики”, например, Влад. Не могу сказать, взлетит ли, может и разумно звучит, время покажет.

Может быть, кривая развития так называемого ИИ приведёт к разнообразному разделению труда внутри наших устройств. Будет полная коробочка сущностей, первая пишет код, вторая созванивается, третья детали на складе заказывает, а четвёртая первых трёх стережёт, чтобы чего не удумали.

Ну а может быть, будет монолитный, шибко умный ИИ — и швец, и жнец, и на дуде игрец.

Тема немного рифмуется, например, с ломанием копий вокруг архитектуры ОС. Ну и мы тоже поучаствовали, и конечно же, для построения конструктивно безопасных ИТ-систем нужна полная изоляция компонентов!

Хочу напомнить, что, конечно, и “охранник”, и “агент-работник”, и прочие “сущности” – это не настоящие персонажи, не носители интеллекта, а алгоритмы, да, тяжёлые, сложные, требующие огромных вычислительных мощностей, просто непредставимых лет 30 назад.

Это не личности, а средства автоматизации самых разных задач, которые раньше не получалось автоматизировать, а теперь — получается. Участвовать в этой технологической волне, конечно, очень интересно.
Forwarded from Киберболоид
«Авито» заплатит за уязвимости в ИИ-сервисах

Компания расширила действие программы Bug Bounty и повысила максимальную выплату за критические проблемы безопасности до 1 млн рублей. Независимые исследователи теперь смогут тестировать ИИ-решения платформы, включая будущих ассистентов «Ави» и «Ави Pro». В программу включили и новые продукты компании — HR Messenger, HRMOST, «Автохаб» и Haraba.

➡️Подробнее читайте на портале «Киберболоид».

#киберболоид #новости
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
DARPA запускает программу роевого ИИ

DARPA выпустило приглашение на «День для потенциальных подрядчиков» перед планируемым запуском программы MATHBAC — «Математика усиления агентной коммуникации».

Суть программы — создать для нужд обороны новое поколение платформ агентного искусственного интеллекта: систем из множества ИИ-агентов, которые самостоятельно общаются между собой, распределяют задачи и совместно находят решения.

MATHBAC — это попытка научить рои ИИ-агентов думать, общаться и принимать решения быстрее любого человека, используя математику, теорию информации и теорию систем.

Один из ключевых пунктов программы — ИИ-агенты должны не просто решать задачи, но и понимать принципы собственного функционирования. Американцы хотят создать ИИ, который сам себя «чинит» и «переучивает» в полевых условиях.

DARPA ищет компактные, быстрые и специализированные ИИ-системы, а не громоздкие языковые модели вроде ChatGPT. Такие системы можно разместить на боевом корабле, самолёте или спутнике — они будут работать без подключения к облаку.

🔒DARPA&CIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AISecure
Зарелизилось еще одна прикольная серта по AI Sec

Будем посмотреть, детали потом постараюсь накинуть

А пока просто ссылка https://academy.hackthebox.com/preview/certifications/htb-certified-offensive-ai-expert

И не забываем что есть такой AI Sec Certs Landscape.

PS еще бы время на это дело найти)
🔥3
Почему модели тяготеют к правде?

Модель, это по факту большой компрессор, который в сохраняет информацию в своих весах при обучении. А какие данные хорошо компрессятся? Правильно, согласованные данные. Эзотерика, теории заговора и тупо ошибки плохо согласуются с общей картиной мира, поэтому, даже когда в обучающем датасете полно мусора (вплоть до 90%), модель все равно выучивает правду

Подробнее об этом написал мой коллега, Костя Крестников, в своем исследовании

П.С. Важный вывод, который делает Костя — "Координированная дезинформация для компрессора неотличима от правды"
Hyundai смогли запустить конвейерное производство гуманоидных роботов Boston Dynamics.

Это создает потенциал для развития этой индустрии, и появлению в 2030-2035 нового бума - массового распространения роботов.
Соответственно, для кибербезопасности ИИ - новый объект защиты, вызов, задачи и конечно решения.
Какими будут гардрейлы для роботов?.. Как предотвратить бунт роботов на dark factory?
Я в предвкушении)

https://www.youtube.com/watch?v=Bo0PcuqjNhE
Forwarded from GitHub Community
MedgeClaw — помощник на основе искусственного интеллекта с открытым исходным кодом для исследований в области биомедицины.

Создан на основе Claude Code и обладает 140 научными навыками K-Dense, панелью мониторинга в реальном времени и интеграцией с RStudio/JupyterLab.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GitHub Community
ClawRouter — это интеллектуальный маршрутизатор больших языковых моделей с открытым исходным кодом, который снижает затраты на использование API ИИ на 92 %.

Он анализирует каждый запрос по 15 параметрам и менее чем за 1 мс перенаправляет его на самую дешёвую из доступных моделей, причём делает это локально.

ClawRouter — единственный маршрутизатор больших языковых моделей, созданный для автономных ИИ-агентов.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from Data Secrets
В Китае завирусился проект Colleague Skill – система для оцифровки живого сотрудника в ИИ-агента

https://github.com/titanwings/colleague-skill

Некто сделал опенсорсный проект под флагом “Distill your colleague into an AI Skill”, и за пару дней он набрал почти 9к звезд. По сути, проект позволяет собрать цифрового двойника сотрудника.

Просто загружаешь рабочие чаты, письма, результаты работы и прочее, и это превращается в базу знаний и упакованные скиллы для агентов с инструкциями о том, как человек работает и решает задачи, чем и как при этом пользуется, как общается и тд.

С одной стороны удобно, можно же сделать цифровую копию самого себя ☕️

Но в китайских медиа типа RedNote пишут, что проект начали массово использовать коллеги против коллег. Люди буквально обучают агентов для выполнения задач других сотрудников, готовясь к моменту, когда руководство решит кого-нибудь уволить и надеясь, что так они защитят от увольнения самих себя.

На этом фоне уже даже начали появляться всякие Anti-distillation tools, которые портят ваши логи и документацию так, чтобы агент не смог на них "обучиться".

Вот так.
Please open Telegram to view this post
VIEW IN TELEGRAM
Интересная модель описывается BitDefender. Называется vibeware, то есть использование LLM для написания вредоносного кода. Но особенность в том, что злоумышленники добавляют специальный компонент, который транслирует код на C++ или C# в редкие, нишевые языки программирования, например, Crystal, Zig, Nim, что позволяет обходить средства обнаружения, "заточенные" под более распространенные языки программирования. В исследовании и другие интересные примеры индустриализации ИИ при написании вредоносов описаны – стоит ознакомиться... 🤔

#malware #ии #ttp
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from Похек
Ваш LLM-агенты в зоне риски: 3 кейса и чек-лист
#ai #security #llm #агенты #agent

♾️Кейсы♾️

➡️ McKinsey: автономный агент-пентестер нашёл в их системе классическую SQL-инъекцию. Через неё можно было подменять промт агента, который крутится поверх данных. Отравление + classic injection = полный compromise. Нашёл не человек - нашёл другой агент.
➡️ EchoLeak (CVE-2025-32711): zero-click в Microsoft 365 Copilot. Атакующий присылает письмо с prompt injection, пользователь просит Copilot сделать summary - данные утекают без единого клика. XPIA-классификаторы прошли мимо, потому что prompt был написан "для человека".
➡️ s1ngularity (NX, август 2025): supply chain на npm-пакет NX. Вместо того чтобы грепать диск, зловред натравливал Claude Code, Gemini CLI и Amazon Q искать секреты. Первая AI-weaponized supply chain атака: ~2300 секретов из 1300+ репозиториев.

♾️Главный тейк♾️

Промт и данные в LLM неразделимы. SQL можно изолировать программно, а LM останется уязвимой всегда: регулярки ловят ~50%, классификаторы ~25%, LLM-guard ещё ~15%. Оставшийся 1% с нами навсегда.

♾️Чек-лист на прод♾️

▪️Allowlist тулов + tool gating
▪️Разделение промта, памяти и данных в разных хранилищах
▪️Инвентаризация агентов и их исходящих коннектов
▪️Observability - логируй промты и tool calls
▪️Никакого выхода в интернет без прослойки
▪️Не доверяй README, .env и RAG-чанкам
▪️Red-teaming при каждой смене модели
▪️Мониторинг supply chain: MCP, скиллы, скачиваемые протоколы

Агенты разрешают всё по чуть-чуть: сначала read, потом create, потом delete. И вот ты уже доверил rm -rf свежей модели на ноуте с продакшн-ключами.

♾️Где это обсудить вживую♾️

22 апреля в Москве South HUB проводит клубную встречу "Кибербезопасность в эпоху AI-агентов". Формат - открытая дискуссия без докладов и слайдов. Среди спикеров Андрей Кузнецов (Head of ML, Positive Technologies) - один из участников того самого подкаста, Артём Гутник (CISO НСПК), Алексей Леднев (PT ESC) и Алексей Лукацкий. Рега ТУТ
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from ML Underhood
Долгое бодрствование агентов — как мы построили платформу Agent Transport System для Алисы AI

Агент «Исследовать», о котором мы писали ранее, должен быть устойчивым к непредвиденным ситуациям. Собственно, исследование — процесс комплексный, требующий проанализировать несколько источников, вызвать разные инструменты и запустить модели. Если где-то что-то упадёт, то всё придется начинать сначала. Чтобы этого не происходило, в Яндексе использовали платформу Agent Transport System (ATS). О ней на Хабре рассказал Алексей Логинов, ведущий разработчик в команде, которая отвечает за инфраструктуру Алисы AI. Кратко выделим главное.

Сперва агентский режим ассистента реализовали на OpenAI Agents SDK. Это работало, но стейты выполнения хранились локально, а при любых сбоях приходилось начинать всё заново. Нужно было найти такое решение, которое позволяло бы продолжать работу именно из состояния до падения. Кроме того, хорошо бы иметь под капотом распределённое выполнение, чтобы агенты и тулы взаимодействовали друг с другом, находясь на разных хостах.

Для построения отказоустойчивых систем хорошо подходит фреймворк Temporal. Он оперирует двумя типами сущностей: workflow (объект с состоянием, который описывает последовательность шагов) и activity (функции, которые вызываются из workflow). Фреймворк фиксирурет решения, принятые workflow, и результаты завершённых activity. В случае падения Temporal восстанавливает выполнение, не вызывая уже сделанные activity.

Однако Temporal не умеет в стриминг, а агенту было бы хорошо выдавать ответы пользователю по мере их получения. К тому же агенты, написанные на Temporal, привязываются к Temporal SDK, что может быть не слишком удобно в случае «переезда» в будущем.

Поэтому Temporal взяли как основу для надёжности, а уже на фреймворке построили центральный сервер платформы — ATS, чьи протоколы и реализуют агенты. ATS также берёт на себя, например, оркестрацию и транспортировку данных и событий между агентами, тулами и моделями на разных хостах. В итоге схема работы выглядит так:

1. Клиент отправляет запрос в ATS.
2. ATS делает запрос в Temporal на запуск workflow. Temporal запускает workflow.
3. Workflow делает запрос в Temporal на запуск activity корневого агента. Temporal запускает activity корневого агента.
4. Activity корневого агента поднимает двунаправленный gRPC-стрим к сервису агента.
5. Если агенту нужно вызвать модель / инструмент / дочернего агента — он просит ATS, ATS сообщает workflow о необходимости запустить activity (signal/update).
6. Workflow запускает соответствующую activity.
7. Activity поднимает двунаправленный gRPC-стрим к сервису.
8. Все activity одного workflow общаются между собой через in-memory-очереди от дочернего activity к родительскому — так чанки данных передаются в реальном времени.
9. Корневой агент пишет свои чанки во внешний стриминговый сервис — пользователь видит ответ по мере выполнения.
10. Завершённые activity возвращают результаты workflow — Temporal сохраняет их.

В случае сбоя ATS начинает взаимодействовать с агентом заново. Когда агент просит вызвать инструмент, модель или дочернего агента, ATS проверяет, есть ли в хранилище какой-то результат работы по этому запросу с прошлого раза. Если да, то агент получает результат и шаг за шагом «перематывается вперёд» до состояния, в котором он был до сбоя, без повторных вызовов тяжёлых LLM и инструментов.

А подробнее о том, как всё устроено, читайте на Хабре.

ML Underhood
Forwarded from CyberSecurityTechnologies
PIArena.pdf
1 MB
#tools
#MLSecOps
"PIArena: A Platform for Prompt Injection Evaluation",
Apr. 2026.

]-> Tool and datasets
Forwarded from CyberOK_news
Применение AI-агентов в разработке программного обеспечения стремительно расширяется — и вместе с ним расширяется поверхность атаки, которую традиционные практики безопасной разработки попросту не покрывают.

«Мы фиксируем, что команды внедряют агентные инструменты быстрее, чем успевают выстроить адекватные практики безопасности. Классический SAMM даёт хорошую основу, но что делать, когда агент начинает самостоятельно вызывать инструменты, читать внешний контекст и действовать автономно без человека в цикле?», — Сергей Гордейчик, CEO CyberOK.

Чтобы закрыть этот пробел, мы публикуем Agentic SAMM (ASAMM) — исследовательский фреймворк, расширяющий OWASP SAMM для систем с AI-агентами.

Ключевые концепции:

Контекст — плоскость управления. Всё что агент читает может стать инструкцией. Вызов инструмента — граница безопасности. Авторизовано не означает согласовано с задачей. Окно автономии — измеримый риск: произведение времени без контрольной точки на взрывной радиус доступных действий.

Фреймворк включает таксономию угроз (C1–C4), двухосевую модель доверия, 17 контролей по 5 функциям SAMM с уровнями зрелости L1–L3 и маппингом на NIST AI RMF, NCSC и ГОСТ Р 56939-2024.

Два пути внедрения: миграция с существующей программы безопасности или новое развёртывание с нуля.

Документ открыт для рецензирования. GitHub:

https://github.com/scadastrangelove/asamm

Русская версия с детальным маппингом по параграфам ГОСТ Р 56939-2024 доступна там же.