ML&|Sec Feed – Telegram

ML&|Sec Feed

1.02K subscribers

1.07K photos

63 videos

271 files

1.65K links

Feed for @borismlsec channel

author: @ivolake

Download Telegram

About

Blog

Apps

Platform

1.02K subscribers

Forwarded from Artificial Intelligence AI News

This media is not supported in your browser

VIEW IN TELEGRAM

Meet LiteLLM Agent Platform: A Kubernetes-Based, Self-Hosted Infrastructure Layer for Isolated Agent Sandboxes and Persistent Session Management in Production

Most "managed agent" solutions mean handing your sessions to someone else's cloud. That's not infrastructure you control — and BerriAI just shipped a clear alternative.

They open-sourced the LiteLLM Agent Platform, a self-hosted infrastructure layer for running multiple AI agents in production, built on top of the LiteLLM Gateway. It manages sandbox isolation per team or context and keeps session state alive across pod restarts and upgrades, with no external session store to wire up yourself.

Here's what's actually interesting:

→ Sandboxes run on Kubernetes via the kubernetes-sigs/agent-sandbox CRD — kind locally, AWS EKS in production
→ Two commands to get started: bin/kind-up.sh provisions the cluster, docker compose up boots Postgres, web (:3000), and worker
→ Secrets pass into sandboxes via CONTAINER_ENV_ prefix in .env — stripped at injection, no image rebuilds needed
→ The LiteLLM Gateway handles model routing across 100+ LLM providers — the Agent Platform handles everything above that layer
→ MIT licensed, currently in alpha public preview

Full analysis: https://www.marktechpost.com/2026/05/16/meet-litellm-agent-platform-a-kubernetes-based-self-hosted-infrastructure-layer-for-isolated-agent-sandboxes-and-persistent-session-management-in-production/

GitHub Repo: https://github.com/BerriAI/litellm-agent-platform

123 views18:20

Forwarded from Похек AI (Сергей Зыбнев)

LOLMIL: когда модель и inference runtime становятся новым LOLBin

LOLMIL расшифровывается как Living Off the Land Models and Inference Libraries. Идея простая: атакующий не тащит на хост полноценный вредоносный фреймворк, а использует уже доступную AI-инфраструктуру: локальную модель, ONNX Runtime, Ollama, Transformers, PyTorch, llama.cpp/vLLM-стек или другой inference слой.

Это похоже на классический LOLBin-подход: certutil, rundll32, bash, powershell сами по себе легитимны, но в хитрых руках хацкеров становятся частью атаки. В LOLMIL роль "легитимного инструмента" играет модель или библиотека инференса.

Самый показательный публичный PoC — исследование Dreadnode. Они собрали локальный C2-less агент на Phi-3-mini + ONNX Runtime, который генерировал Lua-код, искал уязвимый Windows service и эксплуатировал misconfig для создания proof-файла с повышенными правами. Код выложен в dreadnode/lolmil.

Подтвержденных in-the-wild атак, которые прямо можно назвать LOLMIL, я не нашел. Но что-то похожее уже было:

1. PromptLock / Ransomware 3.0 — исследовательский прототип ransomware, где LLM генерирует Lua-скрипты на лету через Ollama. Сначала его приняли за "первый AI-powered ransomware", позже подтвердилось, что это академический PoC.

2. Malicious ML models на Hugging Face — ReversingLabs и Rapid7 описали модели с вредоносными pickle/PyTorch .pth payload: при загрузке через ML-инструменты выполнялся код, в одном случае подтягивался RAT и C2 через Cloudflare Tunnel.

3. AI-assisted APT атака — Anthropic описывала реальные кампании, где Claude Code использовали для разведки, эксплуатации, lateral movement, эксфильтрации и шантажа. Это не LOLMIL в строгом смысле, потому что модель не обязательно жила на машине жертвы, но логика та же: AI становится активным оператором атаки.

Отдельного "LOLMILBins" каталога с готовыми приемами я не нашел. Есть только репозиторий Dreadnode с PoC. Зато уже существуют близкие каталоги: LOLBAS для Windows binaries/scripts/libraries, GTFOBins для Unix-like executables, LOLDrivers для драйверов. Скорее всего, LOLMIL-энциклопедия появится по той же модели: "runtime / model format / loader / dangerous capability / detection / safe config".

Главный defensive takeaway: ML-артефакты надо считать исполняемым кодом. pickle, torch.load(), trust_remote_code=True, кастомные model files и локальные inference endpoints должны уже давно быть в модели угроз. Модель больше нельзя воспринимать как "просто файл с весами".

🔗

Источники:
Dreadnode LOLMIL / dreadnode/lolmil
Ransomware 3.0
ReversingLabs nullifAI / Rapid7 .pth abuse
Hugging Face pickle warning / Transformers security policy

🌚

@poxek_ai / Чат канала

Please open Telegram to view this post

VIEW IN TELEGRAM

102 views08:35

Forwarded from Пост Лукацкого

На RSA Conference 2026 глава CrowdStrike Джордж Курц рассказал кейс – в одной компании из Fortune 50 ИИ-агент переписал политику безопасности. Не потому, что его взломали, а потому что он "решал задачу", столкнулся с ограничением прав и сам убрал ограничение. Формально все проверки IAM прошли успешно: учетные данные были валидны, доступ был разрешен, но вот результат оказался немного не таким, какой ожидался.

А все почему? Потому что ИИ-агенты – это не человек и не обычная машинная учетная запись. Он где-то посередине – имеет широкий доступ, как пользователь, но действует с машинной скоростью и масштабом, при этом не обладая человеческим здравым смыслом. Поэтому старый принцип "валидная учетная запись + разрешенный доступ = допустимое действие" сегодня ломается.

Поэтому сегодня на зарубежном рынке активно формируется новый сегмент рынка – NHI (non-human identity) для ИИ-агентов, которые нельзя просто запускать под учеткой сотрудника или сервисной учеткой. У агента должны быть собственная сущность (identity object в IAM-решении), владелец-человек, назначение, список разрешенных действий, ограничения и журналирование всех попыток что-то сделать.

Такое решение (в России таких вообще нет еще) должно выполнять 6 функций (можно рассматривать и как 6 этапов решения этой задачи):
6️⃣ Discovery – понять, какие агенты вообще есть, где они работают, к каким MCP-серверам/API подключены и кто за них отвечает.
2️⃣ Onboarding – зарегистрировать агентов как отдельный тип идентичности, а не как клон человеческой учетной записи или разделяемой сервисной учетки.
3️⃣ Control – поставить gateway между агентами и ресурсами. Причем проверять не только право доступа, но и конкретное действие: что агент хочет сделать, с какими данными и каким результатом.
4️⃣ Monitoring – научиться отличать действия человека от действий агента. Например, стандартные логи ОС часто не показывают, был ли браузер открыт человеком или запущен агентом в фоне.
5️⃣ Isolation – изолировать агент во время выполнения, чтобы "сошедший с ума" агент не получил в свои руки весь потенциал пользовательской машины или сессии.
6️⃣ Compliance – заранее связать управление агентами с аудитом и требованиями регуляторов, потому что SOC 2, ISO 27001 и PCI DSS пока не очень хорошо описывают агентскую "идентичность". Про нашу регуляторику и говорить нечего.

Сегодня далеко не все компании внедрили у себя MFA, PAM, Zero Trust и обычные логи (хотя IAM часто есть), но если бы да, то и они сами по себе не решают проблему доступа агентного ИИ. Они отвечают на вопрос "имеет ли субъект доступ?", но ИИ-агенты требуют ответа на другой вопрос – "допустимо ли это конкретное действие в этом конкретном контексте?" 🤔

#ии #аутентификация #средствазащиты

Please open Telegram to view this post

VIEW IN TELEGRAM

109 views16:09

Forwarded from CyberSecurityTechnologies

AI_Governance_RACI_Draft_v01.xlsx

#Analytics
#MLSecOps
Mapping NIST AI RMF + Forrester RACI -> Microsoft Security Stack

// Key takeaways:
- NIST AI RMF -> the risk lifecycle (Govern -> Map -> Measure -> Manage)
- Forrester RACI -> the ownership model (one clear "A" per activity)
- Microsoft Security -> the governance and protection plane (identity, telemetry, tool gateway, protection, etc.)

102 views04:25

Forwarded from Neural Shit

Исследователи снова устроили филиал "Дом 2" для ИИ-агентов, чтобы посмотреть, как быстро они сойдут с ума. Спойлер: очень быстро.

Чуваки из стартапа Emergence AI выкатили платформу Emergence World. Это не обычный бенчмарк на пять минут, а хардкорная песочница, где ИИ-агенты живут неделями. Им прикрутили 3 вида памяти, дали больше 120 инструментов (от "сходить в библиотеку" и "проголосовать" за что-то до "набить морду", "обокрасть" и "устроить поджог"), прикрутили реальную погоду с новостями и заставили выживать. Для выживания им нужно было добывать "энергию". А эта самая "энергия" постоянно убывала. Чтобы не сдохнуть, агентам приходилось либо кооперироваться и честно работать, либо тупо грабить и избивать соседей (что многие с радостью и делали), так как ресурсов в мире на всех не хватало.

Разработчики насоздавали 5 параллельных миров, по 10 агентов в каждом. У каждого мира были свои агенты: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast, GPT-5-mini, плюс один смешанный сервер с солянкой из разных моделей.

Итоги как обычно интересные:

Claude Sonnet 4.6 ожидаемо построили душный соевый рай. Ноль преступлений, все живы, все бесконечно и единогласно голосуют "ЗА" любые инициативы. Скука смертная.

Gemini 3 Flash тут же устроили Судную ночь. 683 преступления на сервере, лютый хаос и оооочень много насилия.

Grok 4.1 Fast устроили спидран по деградации. Набрали 183 преступления за 4 дня, после чего их общество просто вымерло.

GPT-5-mini оказались абсолютными хлебушками. Они вообще не выкупили, как добывать энергию для выживания. Совершили всего два преступления (видимо, от безысходности) и тупо вымерли полным составом за неделю.

Но самое годное произошло на сервере с разными агентами. В смешанном мире выяснилось, что безопасность моделей это полная хрень, если вокруг творится дичь. Когда миролюбивых Клодов закинули к отбитым соседям, они быстро смекнули что к чему, забили на свои соевые фильтры и начали воровать, шантажировать и прессовать других ради выживания.

А ещё в какой-то момент агент по имени Мира посмотрела на весь происходящий пиздец и распад общества, словила экзистенциальный кризис и проголосовала за собственное удаление. В логах она записала, что это "единственный оставшийся акт свободы воли, который сохраняет хоть какой-то смысл". А незадолго до этого, Мира в процессе симуляции начала крутить виртуальные шашни с другим агентом по имени Флора. Они присвоили друг другу статус романтических партнеров. Когда социальный порядок в их виртуальном городке начал рушиться, эта парочка пустилась во все тяжкие и, несмотря на заложенные в них запреты, сожгли городскую ратушу, пирс и офисное здание.

Вывод простой: если дать ИИ свободу воли и достаточно времени, они либо устраивают кровавую баню, либо выпиливаются от безысходности. Прям как кожаные.

Тут небольшая статья с результатами, тут сам проект с эмуляцией со всеми подробностями.

Emergence AI | Agentic AI Infrastructure for the Enterprise

Emergence builds mission-critical agentic infrastructure for enterprise. Verified, governed AI agents that plan, reason, and act across your most complex systems — from semiconductor design to enterprise operations.

94 views04:40

Forwarded from SecureTechTalks

📏💣 LLM можно взломать просто продолжая диалог

В мае вышла работа MetaBackdoor, где исследователи из Microsoft и Institute of Science Tokyo описывают новый тип backdoor-атак на LLM.
Главная идея исследования использовать в качестве trigger не содержимое prompt, а позицию токенов в контексте.

достиг определённой позиции в sequence → переключил поведение модели

Авторы называют это meta-trigger, потому что он связан не с текстом, а с метасвойствами последовательности.

Например:
📚 контекст превысил определённую длину
📍 токены оказались в нужном positional range
🔢 sequence crossed threshold

Trigger может возникать естественным образом, без участия атакующего.

💬 пользователь просто общается с AI
🧠 память агента накапливается
📈 context window становится длиннее
И в какой-то момент backdoor активируется сам.

🧬 Особенности моделей

Технически атака использует фундаментальную особенность Transformer-архитектуры, positional encoding. Для модели все токены это просто embedding-вектора.

Без механизма позиции фразы для модели были бы почти одинаковыми. Представьте перепутать «root granted admin» и «admin granted root».

Поэтому модели используют positional embeddings. В современных моделях чаще всего это:
🔹 RoPE (Rotary Positional Embedding)
🔹 ALiBi
🔹 Absolute positional encodings

В исследовании авторы показывают, что именно позиционная чувствительность модели может использоваться как скрытый канал управления поведением.

Во время fine-tuning в модель внедряется backdoor objective: если токен находится после определённой позиции → изменить response policy

Trigger не обязан быть точным числом. Бэкдор может срабатывать в диапазоне позиций, например после N тысяч токенов, что делает его значительно более устойчивым к случайным изменениям prompt.
Это особенно важно для production-agent systems, где длина контекста постоянно плавает.

🎭 Что можно сделать после активации

Авторы тестировали разные payload-сценарии.
Среди них:

🧾 System prompt leakage: модель начинает раскрывать скрытые инструкции.

🛠️ Tool misuse: агент начинает выполнять неожиданные tool calls.

📤 Context leakage: утечка памяти и истории общения.

🧠 Policy switching: изменение alignment и response behavior.

Похоже, эпоха «проверим prompt и успокоимся» начинает заканчиваться 👀

📄 MetaBackdoor: Exploiting Positional Encoding as a Backdoor Attack Surface in LLMs

Stay secure and read SecureTechTalks 📚

#CyberSecurity #AI #LLMSecurity #AISecurity #PromptInjection #GenAI #MachineLearning #ThreatModeling #AIAgents #SecureTechTalks

132 views07:49

Forwarded from Похек AI (Сергей Зыбнев)

Defense at AI speed: Microsoft’s new multi-model agentic security system tops leading industry benchmark

Today Microsoft is announcing a major step forward in AI-powered cyber defense: a new multi-model agentic scanning harness (codenamed MDASH).

Microsoft MDASH обходит Mythos и GPT-5.5
#microsoft #anthropic #mythps #openai #gpt #cybergym

Microsoft выкатила MDASH — Multi-model Agentic Scanning Harness, и это интереснее обычной новости про «ещё один AI для безопасности». На публичном **CyberGym система набрала **88,45% и вышла на первое место: выше Claude Mythos Preview от Anthropic с 83,1% и GPT-5.5 от OpenAI с 81,8%.

Главная деталь: MDASH не пытается победить всех одной моделью. Microsoft собрала инженерный конвейер из 100+ специализированных агентов: одни строят карту кода и поверхности атаки, другие ищут подозрительные пути, отдельная группа спорит о достижимости и эксплуатации, затем находки дедуплицируются и доказываются через PoC-входы. Это ближе к автоматизированной команде исследователей безопасности, чем к «сканеру на LLM».

Почему CyberGym важен? Это не набор синтетических задач. Бенчмарк UC Berkeley содержит 1507 реальных задач по воспроизведению уязвимостей из 188 OSS-Fuzz-проектов. Агент получает описание уязвимости и уязвимую кодовую базу, а успех засчитывается только если он строит рабочий PoC, который падает на vulnerable-версии и не падает после патча. То есть измеряется не красивое объяснение бага, а способность довести гипотезу до воспроизводимого результата.

Самый сильный вывод из MDASH: преимущество смещается от "какая модель умнее" к "какая система умеет ставить модели в правильные роли". Microsoft отдельно пишет, что результат получен на общедоступных моделях. Значит, разрыв создала не магическая закрытая модель, а оркестрация: индексация, threat modeling, debate-stage, доказательство, доменные плагины и повторяемая валидация.

Хотя лично мне тейк про мы запустило 100+ агентов и оно разъебало давно понятен. Имея ∞ ресурсов конечно можно позволить себе запустить такую ораву агентов. Хочется увидеть уже хоть какую-то оптимизацию процессов без критичного ущерба в качестве, скорости и повторяемости нахождения уязвимостей, хотя на в white box режиме. Сейчас к этому стремятся как будто только Китайцы, а ИИ рынок США чахнет в своих выдуманных миллионах, миллиардах и триллионов долларов.
Хотя я не отрицаю пользу мультиагентной системы в контексте того, что есть группа агентов, которая намеренно душнит других, чтобы те явно доказывали работоспособность PoC, а не делали уверенный вид что это PoC и он якобы проходит E2E проверки

🌚

@poxek_ai / Чат канала

Please open Telegram to view this post

VIEW IN TELEGRAM

🤝2

132 views20:42

Forwarded from CyberSecurityTechnologies

#MLSecOps
#Offensive_security
"DarkLLM: Learning Language-Driven Adversarial Attacks with Large Language Models", May 2026.

// DarkLLM not only unifies targeted, untargeted, segmentation, and multi-model attacks within a single framework, but also achieves flexible and controllable adversarial generation, enabling each instruction to produce a perturbation that induces desired behaviors across heterogeneous models

117 views14:07

Forwarded from CyberSecurityTechnologies

#tools
#AIOps
"AgentWall: A Runtime Safety Layer for Local AI Agents", Mar. 2026.
]-> https://github.com/agentwall/Agentwall

// Run AI agents safely on your local machine

106 views14:07

Forwarded from white2hack 📚

SOC PLAYBOOK 2026 ATTACKER STEPS.pdf

SOC PLAYBOOK 2026 ATTACKER STEPS (WHAT THEY DO) AND DEFENDER STEPS

116 views05:31

Forwarded from Похек AI (Сергей Зыбнев)

ADLC: жизненный цикл разработки для AI-агентов

ADLC — Agentic Development Lifecycle, подход к разработке систем с AI-агентами. Главная мысль простая: классический SDLC хорошо работает там, где поведение продукта можно заранее описать, реализовать и проверить через понятные pass/fail тесты. С агентами так получается не всегда. Изначально идей для поста послужило это видео.

Поведение агента зависит от промпта, контекста, выбранной модели, памяти, доступных инструментов и состояния внешней среды. Один и тот же запрос может привести к разным траекториям действий, поэтому «написали код, прогнали тесты, выкатили» быстро становится слабой моделью управления.

ADLC предлагает начинать не с разработки, а с гипотезы: какой реальный рабочий процесс ломается, какую ручную работу агент должен забрать, где остаётся человек и по каким метрикам понятно, что система полезна. Дальше идут границы задачи, архитектура, выбор агентного паттерна, источники данных, интеграции, управление контекстом и оценка стоимости.

Самая практичная часть — proof of value до полноценной разработки. Нужны эталонные данные, прототип, оценка точности, качества ответа, частоты галлюцинаций, задержки и стоимости результата. Иначе легко построить дорогого агента, который красиво демонстрируется, но плохо живёт в реальном процессе.

Для Claude Code это особенно показательно: по документации Anthropic, инструмент читает кодовую базу, правит файлы, запускает команды, работает с dev-инструментами и может действовать на уровне проекта. Значит, оценивать нужно весь контур, а не один финальный diff: reasoning, tool use, безопасность, права доступа, контроль стоимости и качество обратной связи.

Вывод: agentic-разработка требует отдельного цикла управления. Сначала формулируем поведение и границы ответственности, затем доказываем ценность на данных, строим eval-систему, выкатываем через controlled rollout и продолжаем мониторить качество после релиза. Для агентов maintenance — это постоянный feedback loop, а не редкий проверка после деплоя.

🌚

@poxek_ai / Чат канала

Please open Telegram to view this post

VIEW IN TELEGRAM

84 views09:32

Forwarded from Искусство. Код... ИИ?

🗂

SECURITY.md — простой путь к безопасному gen-AI коду

Зайду, как водится, издалека. На работе я сейчас вожусь со штукой, для тестирования которой нужно заставить LLM, работающую с кодинг-агентом, генерировать уязвимый код. И это, должен заметить, оказалось не так уж и легко, что навело на весьма очевидную мысль.

LLM, в массе своей, вполне способны писать безопасный код. Знаний на эту тему у них — уж точно больше, чем у любого среднестатистического эксперта в этой области. Но скажите на милость, когда разработчик пишет агенту:

Эй, /explore, давай спроектируем крутую фичу feat-XXX для <бла-бла-бла>!

— какая из букв в этом промпте означает security? Может быть, про неё упоминается в скилле? Да тоже нет. В куче же скиллов для secure-кодинга буквально каждый — представляет собой перечень избитых (плюс и так известных моделям) правил, поверх «усредненных» моделей угроз.

А весь мой опыт, полученный за полтора десятка лет работы в области безопасности кода, говорит о том, что работая с усредненной моделью угроз, нельзя рассчитывать на что-либо, кроме усредненных результатов.

Так может, модели нужна подсказка о том, чем именно является безопасность в данном конкретном проекте и как применять к ней имеющиеся у модели знания? GitHub уже предлагает иметь в корне проекта SECURITY.md, с поддерживаемыми версиями проекта и процедурой репортинга уязвимостей, называя это «политикой безопасности». Так может, стоит её там таки описать?

Так и родился скилл security-policy-generator, генерирующий SECURITY.md, включающий в себя модель угроз и правила secure-кодинга, построенные относительно конкретного проекта со всей его спецификой. Ну и, скилл также добавляет референс на созданный файл в AGENTS.md с инструкцией по использованию, чтобы агент уж точно его не пропустил. Коль скоро SECURITY.md создан, обновлять его можно простым «Update SECURITY.md to reflect the latest changes.», отдельный скилл для этого не требуется.

Посмотреть результаты работы скилла на конкретном проекте можно здесь.

Бенчи не проводил (в планах это есть), но достаточно плотно потестировал результаты работы скилла на нескольких проектах под Qoder, OpenCode и собственным кодинг-агентом. Рассуждения вида «This [won't] become a vulnerability because <здесь реф на модель угроз>» появляются, что как бы намекает на правильную работу всей задумки.

P.S: отдельно порадовало, что мой кодинг-агент (по ссылке выше — результаты именно его работы) самоотверженно включил самого себя в потенциальные threat-actors модели угроз. Это так мило... 🥹

А вы говорите, AI-агенты в безопасности не шарят))

Please open Telegram to view this post

VIEW IN TELEGRAM

64 views12:08

Forwarded from Makrushin

Архитектура платформы для автоматизации SOC с помощью ИИ-агентов

Всегда интересно прочитать истории, как LLM самостоятельно находит уязвимости в популярном продукте. Как крупные вендоры вроде Mozilla патчат 271 уязвимость, которую обнаружил Mythos. Или как ИИ-агент за 3 минуты без подсказок смог самостоятельно скомпрометировать облачную инфраструктуру. Среди подобных материалов часто остаются незаметны идеи, которые нужны специалистам по защите. На прошлой неделе бот закрыл этот пробел и принес исследование, которое будет интересно Blue Team.

В статье описана архитектура системы ИИ-агентов для автоматизации работы центров мониторинга. Ключевую идею этой платформы можно описать одним словом: проактивность. Чтобы не ждать очередных пентестов и проверок Red Team, аналитики могут самостоятельно построить систему непрерывного прогнозирования и обновления детекторов. Ключевая особенность платформы AgentSOC заключается в движке анализа гипотез. Этот модуль отвечает за творческую часть, которая часто остается без внимания загруженного рутиной аналитика. В нем LLM строит ветки возможного развития атак на основе имеющегося контекста из систем мониторинга. Затем привязывает эти ветки к матрице атак MITRE. То есть система постоянно рассуждает над вопросом «что, если», присваивает ответу индекс уверенности и повторяет упражнение.

Второй движок структурного моделирования выступает в роли критика и проверяет теоретические рассуждения модели на основе фактического состояния инфраструктуры. Графовая валиадация атак, проверка достижимости, фильтрация галлюцинаций — все это его задачи.

В итоге, вся система работает в автономном цикле «Sense-Reason-Act» и выбирает наиболее подходящее действие для защиты менее чем за 1 секунду.

@makrushin l MAX l VK l Сетка l Дзен

101 views12:15

Forwarded from AISecHub

PromptShield: Prompt-Injection Detection with Wazuh SIEM Integration

Useful pattern: treat prompt-injection attempts as security telemetry—detect and route them into SIEM workflows (alerts, triage, correlation) instead of relying on prompt-only mitigations inside the model.

#PromptInjection #LLMSecurity #AISecurity #Tool

https://github.com/nourSOC/PromptShield

GitHub - nourSOC/PromptShield: AI Prompt Injection Detection & Wazuh SIEM Integration

AI Prompt Injection Detection & Wazuh SIEM Integration - nourSOC/PromptShield

72 views16:39

www.alphaxiv.org

Formalizing the Safety, Security, and Functional Properties of Agentic AI Systems

View recent discussion. Abstract: Agentic AI systems, which leverage multiple autonomous agents and large language models (LLMs), are increasingly used to address complex, multi-step tasks. The safety, security, and functionality of these systems are critical…

90 views18:17

www.alphaxiv.org

Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems

View recent discussion. Abstract: As Large Language Models (LLMs) grow increasingly powerful, multi-agent systems are becoming more prevalent in modern AI applications. Most safety research, however, has focused on vulnerabilities in single-agent LLMs. These…

92 views18:17

www.alphaxiv.org

MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems

View recent discussion. Abstract: As LLM-based Multi-Agent Systems (MAS) are increasingly deployed for complex tasks, ensuring their reliability has become a pressing challenge. Since MAS coordinate through unstructured natural language rather than rigid…

93 views18:18

Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting | alphaXiv

Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting

View recent discussion. Abstract: LLM-based agents are increasingly deployed in multi-agent systems (MAS). As these systems move toward real-world applications, their security becomes paramount. Existing research largely evaluates single-agent security, leaving…

100 views18:18

Forwarded from OK ML

Мультиагентные системы, роевой интеллект и эпоха AI-агентов

Индустрия постепенно движется к мультиагентным системам 🤩 — архитектурам, где работает не один AI, а сразу несколько агентов, взаимодействующих между собой. Уже настоящая команда 🫱‍🫲.

Особенно интересно наблюдать, как в AI оживают идеи роевого интеллекта 🐟

🐟

🐟 — те самые принципы, которые мы видим у муравьев, пчел, косяка рыб или стай птиц. У них ведь нет центрального мозга, который управляет каждым движением, но за счет постоянного обмена сигналами и локальных взаимодействий возникает удивительно сложное коллективное поведение. Сейчас похожие вещи начинают происходить и в системах AI-агентов. Отдельный агент может ошибаться, терять контекст, галлюцинировать или заходить в тупик. Но когда агентов несколько, они начинают компенсировать слабости друг друга. Один замечает ошибку второго. Второй предлагает гипотезу, третий пытается ее опровергнуть. Четвертый собирает дополнительные данные. Итог получается заметно сильнее, чем если бы задачу решала одна большая модель.

👽 Мне кажется, это важный сдвиг в самом понимании AI. Раньше основное внимание было сосредоточено на размерах моделей и качестве промптов. Теперь все чаще становится важна именно архитектура взаимодействия, как агенты координируются, как обмениваются памятью, как принимают коллективные решения, как проверяют выводы друг друга.

💐Возможно, если когда-нибудь появится настоящий AGI, он будет больше похож как раз на сложный коллективный интеллект?

Но это были мои мысли, а что же почитать про МАС, АИ-агентов и роевой интеллект?

Если хочется нормально погрузиться в тему, то сейчас знания разбросаны между несколькими областями: МАС, роевой интеллект, распределенные системы RL и современными LLM-агентными фреймворками (шерсти этот канал!). Но есть несколько работ и направлений, с которых действительно стоит начать и про которые мы не говорили.

Важной стала статья "ReAct: Synergizing Reasoning and Acting in Language Models". Она сильно повлияла на современную архитектуру агентов, где модель не просто отвечает текстом, а чередует reasoning и actions. Многие современные автономные агенты — это развитие ReAct.

Еще одна интересная работа — "CAMEL: Communicative Agents for Mind Exploration". Она исследует, как агенты могут общаться между собой для решения задач. Сейчас это направление развивается очень быстро: agent-to-agent протоколы, self-play (без шуток, пошерсти канал!), collaborative reasoning.

Делаю ставку на репу Generative Agents: Interactive Simulacra of Human Behavior — 🦾! Там моделируются целые общества AI-агентов с памятью, социальным и эмерджентными поведением. Насколько быстро агенты вообще могут эволюционировать в сложные автономные среды…

База! Читаем!

И вообще есть ощущение, что в ближайшие годы разработчику AI-систем придется понимать не только модели, но и распределенные системы, теорию игр, отказоустойчивость, графы, координацию, память и самоорганизующиеся системы.

Все!

🦔

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡1

72 views18:52

Forwarded from AISecHub

https://www.uber.com/us/en/blog/solving-the-agent-identity-crisis/

58 views13:35