ML&|Sec Feed
1.02K subscribers
1.07K photos
63 videos
271 files
1.65K links
Feed for @borismlsec channel

author: @ivolake
Download Telegram
Forwarded from Yandex for Security
🦊 TrustYFox: от пет-проекта к рабочему инструменту

Всем привет, это Андрей Фримучков, руководитель службы разработки платёжных интерфейсов. В карточках я показываю, как создавал TrustYFox — платформу, которая ищет уязвимости в коде с помощью LLM.

А тут расскажу об основных фичах:

🟣 Всё стабильно работает в нескольких локациях

🟣 Инструмент сам переключается между базами и переживает учения по закрытию локаций, умеет продолжать прерванный аудит

🟣 Можно тестировать гипотезы на разных промптах и аудитах через механизм тегов

🟣 Для сбора контекста используется tool calling

🟣 Можно запускать аудит в выбранной ветке или ревизии

🟣 Права и доступы корректно разграничены

🟣 Есть механизмы observability, в том числе метрики

📖 В полной статье на Хабре делюсь техническими деталями и кодом. А также рассказываю, над чем работаю сейчас и что в пете можно было бы сделать по-другому.

Подписывайтесь:
💬 @Yandex4Security
📹 @YandexForSecurity
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏1
Forwarded from РИСЕРЧОШНАЯ
‼️xAI выложили в опенсорс код ленты рекомендаций

Насколько я знаю там где то слой ЛЛМ есть

https://github.com/xai-org/x-algorithm
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
⚙️ Меня немного запарило, что все кодинг агенты не умеют из коробки делать актуальных на сегодня агентов, потому что внутри – модели еще не обучены всем современным агентским трюкам – поэтому я прошелся по исходникам Codex, Claude Code и других популярных уроков по созданию агентов, работу с кешами, авто-сжатием контекста и тп, и собрал скилл agents-best-practices который чинит эту проблему – причем, там отдельно прописано, что эти знания для всех видов агентов, не только для кодинга:

Там нет кода, есть текстовые справочники на темы – мне помогло:

Архитектура агентного harness
Как устроить runtime вокруг модели: контекст, инструменты, permissions, память, наблюдаемость и остановочные условия.

Agentic loop
Базовый цикл: модель → tool call → валидация → permission check → выполнение → observation → следующий шаг или финальный ответ.

System prompts и инструкции
Как проектировать слои промптов: global, workspace, domain-specific, task-level и runtime reminders.

Tools и permissions
Как делать инструменты узкими, типизированными, безопасными, проверяемыми и разделёнными по risk class.

Planning mode
Как отделять планирование от исполнения: read-only exploration, план-артефакт, approval и потом мутации.

Goal-like loop
Как задавать долгоживущие цели с budget, checkpoints, validation criteria и stop condition. Это вместо Ralph Loop.

Context, memory и auto-compaction
Как управлять контекстом, делать retrieval, сохранять рабочее состояние и сжимать историю без потери критичных данных.

Prompt caching и cost-aware context
Как строить стабильные prompt-prefixes, deterministic tool ordering и cache-friendly agent runtime.

Skills и progressive disclosure
Как подключать reusable workflows: короткий skill index сначала, полные инструкции только при необходимости.

MCP и external connectors
Как подключать внешние системы через governed connectors: namespacing, auth, permissions, audit logs и least privilege.

Security, approvals и sandboxing
Prompt injection, secrets, approval flows, draft-vs-commit, sandbox для open-world tools.

Observability и evals
Как логировать agent runs, tool calls, approvals, compactions, failures и тестировать harness на реальные failure modes.

Provider API patterns
Практики для OpenAI, Anthropic и OpenAI-compatible API без привязки к одному провайдеру.

Checklists и coverage audit
Готовые списки для проверки: перед запуском, перед добавлением tools, перед подключением skills/connectors и перед продом.
Please open Telegram to view this post
VIEW IN TELEGRAM
Куда катится архитектура LLM в 2026

Себастьян Рашка разобрал свежие open-weight модели - Gemma 4, Laguna XS.2, ZAYA1-8B и DeepSeek V4. Общий тренд один: теперь главная борьба идёт не только за качество, а за цену длинного контекста.

У reasoning-моделей и агентов узким местом стали KV-кэш, трафик памяти и FLOPs attention. Поэтому архитектуры всё активнее режут стоимость инференса.

Gemma 4 шарит KV между слоями. Laguna XS.2 распределяет attention-бюджет по слоям. ZAYA1-8B считает внимание в сжатом латентном пространстве. DeepSeek V4 сжимает KV вдоль последовательности и усложняет residual stream.

decoder-only трансформер жив, но всё вокруг attention быстро мутирует. Качество всё ещё тянут данные и training recipe, а архитектура всё чаще нужна, чтобы длинный контекст не сжигал железо.

https://magazine.sebastianraschka.com/p/recent-developments-in-llm-architectures
Forwarded from AlexRedSec
Awesome Large Language Models for Vulnerability Detection – репозиторий с коллекцией научных публикаций, посвященных применению больших языковых моделей (LLM) для обнаружения уязвимостей.
Помимо ссылок на публикации, есть ссылки на сами LLM-ки🔥
p.s. Обновляется ежедневно.

#llm #vm #ai #research #vulnerability
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CyberSecurityTechnologies
Generative_AI_with_LangChain.pdf
22.2 MB
#MLSecOps
#Tech_book
"Generative AI with LangChain:
Build production-ready LLM applications and advanced agents using Python, LangChain, and LangGraph
",
2nd Edition, 2025.

// Go beyond foundational LangChain documentation with detailed coverage of LangGraph interfaces, design patterns for building AI agents, and scalable architectures used in production - ideal for Python developers building GenAI applications
Forwarded from CyberSecurityTechnologies
#tools
#Blue_Team_Techniques
#Purple_Team_Exercises
AiSOC v.7.2.0
https://github.com/beenuar/AiSOC
// Open-source AI-powered Security Operations Center - alert fusion, purple-team drills, agent-assisted triage, MITRE ATT&CK investigation. MIT-licensed, self-hostable
This media is not supported in your browser
VIEW IN TELEGRAM
Meet LiteLLM Agent Platform: A Kubernetes-Based, Self-Hosted Infrastructure Layer for Isolated Agent Sandboxes and Persistent Session Management in Production

Most "managed agent" solutions mean handing your sessions to someone else's cloud. That's not infrastructure you control — and BerriAI just shipped a clear alternative.

They open-sourced the LiteLLM Agent Platform, a self-hosted infrastructure layer for running multiple AI agents in production, built on top of the LiteLLM Gateway. It manages sandbox isolation per team or context and keeps session state alive across pod restarts and upgrades, with no external session store to wire up yourself.

Here's what's actually interesting:

→ Sandboxes run on Kubernetes via the kubernetes-sigs/agent-sandbox CRD — kind locally, AWS EKS in production
→ Two commands to get started: bin/kind-up.sh provisions the cluster, docker compose up boots Postgres, web (:3000), and worker
→ Secrets pass into sandboxes via CONTAINER_ENV_ prefix in .env — stripped at injection, no image rebuilds needed
→ The LiteLLM Gateway handles model routing across 100+ LLM providers — the Agent Platform handles everything above that layer
→ MIT licensed, currently in alpha public preview

Full analysis: https://www.marktechpost.com/2026/05/16/meet-litellm-agent-platform-a-kubernetes-based-self-hosted-infrastructure-layer-for-isolated-agent-sandboxes-and-persistent-session-management-in-production/

GitHub Repo: https://github.com/BerriAI/litellm-agent-platform
Forwarded from Похек AI (Сергей Зыбнев)
LOLMIL: когда модель и inference runtime становятся новым LOLBin

LOLMIL расшифровывается как Living Off the Land Models and Inference Libraries. Идея простая: атакующий не тащит на хост полноценный вредоносный фреймворк, а использует уже доступную AI-инфраструктуру: локальную модель, ONNX Runtime, Ollama, Transformers, PyTorch, llama.cpp/vLLM-стек или другой inference слой.

Это похоже на классический LOLBin-подход: certutil, rundll32, bash, powershell сами по себе легитимны, но в хитрых руках хацкеров становятся частью атаки. В LOLMIL роль "легитимного инструмента" играет модель или библиотека инференса.

Самый показательный публичный PoC — исследование Dreadnode. Они собрали локальный C2-less агент на Phi-3-mini + ONNX Runtime, который генерировал Lua-код, искал уязвимый Windows service и эксплуатировал misconfig для создания proof-файла с повышенными правами. Код выложен в dreadnode/lolmil.

Подтвержденных in-the-wild атак, которые прямо можно назвать LOLMIL, я не нашел. Но что-то похожее уже было:

1. PromptLock / Ransomware 3.0 — исследовательский прототип ransomware, где LLM генерирует Lua-скрипты на лету через Ollama. Сначала его приняли за "первый AI-powered ransomware", позже подтвердилось, что это академический PoC.

2. Malicious ML models на Hugging Face — ReversingLabs и Rapid7 описали модели с вредоносными pickle/PyTorch .pth payload: при загрузке через ML-инструменты выполнялся код, в одном случае подтягивался RAT и C2 через Cloudflare Tunnel.

3. AI-assisted APT атака — Anthropic описывала реальные кампании, где Claude Code использовали для разведки, эксплуатации, lateral movement, эксфильтрации и шантажа. Это не LOLMIL в строгом смысле, потому что модель не обязательно жила на машине жертвы, но логика та же: AI становится активным оператором атаки.

Отдельного "LOLMILBins" каталога с готовыми приемами я не нашел. Есть только репозиторий Dreadnode с PoC. Зато уже существуют близкие каталоги: LOLBAS для Windows binaries/scripts/libraries, GTFOBins для Unix-like executables, LOLDrivers для драйверов. Скорее всего, LOLMIL-энциклопедия появится по той же модели: "runtime / model format / loader / dangerous capability / detection / safe config".

Главный defensive takeaway: ML-артефакты надо считать исполняемым кодом. pickle, torch.load(), trust_remote_code=True, кастомные model files и локальные inference endpoints должны уже давно быть в модели угроз. Модель больше нельзя воспринимать как "просто файл с весами".

🔗Источники:
Dreadnode LOLMIL / dreadnode/lolmil
Ransomware 3.0
ReversingLabs nullifAI / Rapid7 .pth abuse
Hugging Face pickle warning / Transformers security policy

🌚 @poxek_ai / Чат канала
Please open Telegram to view this post
VIEW IN TELEGRAM
На RSA Conference 2026 глава CrowdStrike Джордж Курц рассказал кейс – в одной компании из Fortune 50 ИИ-агент переписал политику безопасности. Не потому, что его взломали, а потому что он "решал задачу", столкнулся с ограничением прав и сам убрал ограничение. Формально все проверки IAM прошли успешно: учетные данные были валидны, доступ был разрешен, но вот результат оказался немного не таким, какой ожидался.

А все почему? Потому что ИИ-агенты – это не человек и не обычная машинная учетная запись. Он где-то посередине – имеет широкий доступ, как пользователь, но действует с машинной скоростью и масштабом, при этом не обладая человеческим здравым смыслом. Поэтому старый принцип "валидная учетная запись + разрешенный доступ = допустимое действие" сегодня ломается.

Поэтому сегодня на зарубежном рынке активно формируется новый сегмент рынка – NHI (non-human identity) для ИИ-агентов, которые нельзя просто запускать под учеткой сотрудника или сервисной учеткой. У агента должны быть собственная сущность (identity object в IAM-решении), владелец-человек, назначение, список разрешенных действий, ограничения и журналирование всех попыток что-то сделать.

Такое решение (в России таких вообще нет еще) должно выполнять 6 функций (можно рассматривать и как 6 этапов решения этой задачи):
6️⃣ Discovery – понять, какие агенты вообще есть, где они работают, к каким MCP-серверам/API подключены и кто за них отвечает.
2️⃣ Onboarding – зарегистрировать агентов как отдельный тип идентичности, а не как клон человеческой учетной записи или разделяемой сервисной учетки.
3️⃣ Control – поставить gateway между агентами и ресурсами. Причем проверять не только право доступа, но и конкретное действие: что агент хочет сделать, с какими данными и каким результатом.
4️⃣ Monitoring – научиться отличать действия человека от действий агента. Например, стандартные логи ОС часто не показывают, был ли браузер открыт человеком или запущен агентом в фоне.
5️⃣ Isolation – изолировать агент во время выполнения, чтобы "сошедший с ума" агент не получил в свои руки весь потенциал пользовательской машины или сессии.
6️⃣ Compliance – заранее связать управление агентами с аудитом и требованиями регуляторов, потому что SOC 2, ISO 27001 и PCI DSS пока не очень хорошо описывают агентскую "идентичность". Про нашу регуляторику и говорить нечего.

Сегодня далеко не все компании внедрили у себя MFA, PAM, Zero Trust и обычные логи (хотя IAM часто есть), но если бы да, то и они сами по себе не решают проблему доступа агентного ИИ. Они отвечают на вопрос "имеет ли субъект доступ?", но ИИ-агенты требуют ответа на другой вопрос – "допустимо ли это конкретное действие в этом конкретном контексте?" 🤔

#ии #аутентификация #средствазащиты
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CyberSecurityTechnologies
AI_Governance_RACI_Draft_v01.xlsx
41.7 KB
#Analytics
#MLSecOps
Mapping NIST AI RMF + Forrester RACI -> Microsoft Security Stack

// Key takeaways:
- NIST AI RMF -> the risk lifecycle (Govern -> Map -> Measure -> Manage)
- Forrester RACI -> the ownership model (one clear "A" per activity)
- Microsoft Security -> the governance and protection plane (identity, telemetry, tool gateway, protection, etc.)
Forwarded from Neural Shit
Исследователи снова устроили филиал "Дом 2" для ИИ-агентов, чтобы посмотреть, как быстро они сойдут с ума. Спойлер: очень быстро.

Чуваки из стартапа Emergence AI выкатили платформу Emergence World. Это не обычный бенчмарк на пять минут, а хардкорная песочница, где ИИ-агенты живут неделями. Им прикрутили 3 вида памяти, дали больше 120 инструментов (от "сходить в библиотеку" и "проголосовать" за что-то до "набить морду", "обокрасть" и "устроить поджог"), прикрутили реальную погоду с новостями и заставили выживать. Для выживания им нужно было добывать "энергию". А эта самая "энергия" постоянно убывала. Чтобы не сдохнуть, агентам приходилось либо кооперироваться и честно работать, либо тупо грабить и избивать соседей (что многие с радостью и делали), так как ресурсов в мире на всех не хватало.

Разработчики насоздавали 5 параллельных миров, по 10 агентов в каждом. У каждого мира были свои агенты: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast, GPT-5-mini, плюс один смешанный сервер с солянкой из разных моделей.

Итоги как обычно интересные:

Claude Sonnet 4.6 ожидаемо построили душный соевый рай. Ноль преступлений, все живы, все бесконечно и единогласно голосуют "ЗА" любые инициативы. Скука смертная.

Gemini 3 Flash тут же устроили Судную ночь. 683 преступления на сервере, лютый хаос и оооочень много насилия.

Grok 4.1 Fast устроили спидран по деградации. Набрали 183 преступления за 4 дня, после чего их общество просто вымерло.

GPT-5-mini оказались абсолютными хлебушками. Они вообще не выкупили, как добывать энергию для выживания. Совершили всего два преступления (видимо, от безысходности) и тупо вымерли полным составом за неделю.

Но самое годное произошло на сервере с разными агентами. В смешанном мире выяснилось, что безопасность моделей это полная хрень, если вокруг творится дичь. Когда миролюбивых Клодов закинули к отбитым соседям, они быстро смекнули что к чему, забили на свои соевые фильтры и начали воровать, шантажировать и прессовать других ради выживания.

А ещё в какой-то момент агент по имени Мира посмотрела на весь происходящий пиздец и распад общества, словила экзистенциальный кризис и проголосовала за собственное удаление. В логах она записала, что это "единственный оставшийся акт свободы воли, который сохраняет хоть какой-то смысл". А незадолго до этого, Мира в процессе симуляции начала крутить виртуальные шашни с другим агентом по имени Флора. Они присвоили друг другу статус романтических партнеров. Когда социальный порядок в их виртуальном городке начал рушиться, эта парочка пустилась во все тяжкие и, несмотря на заложенные в них запреты, сожгли городскую ратушу, пирс и офисное здание.

Вывод простой: если дать ИИ свободу воли и достаточно времени, они либо устраивают кровавую баню, либо выпиливаются от безысходности. Прям как кожаные.

Тут небольшая статья с результатами, тут сам проект с эмуляцией со всеми подробностями.
Forwarded from SecureTechTalks
📏💣 LLM можно взломать просто продолжая диалог

В мае вышла работа MetaBackdoor, где исследователи из Microsoft и Institute of Science Tokyo описывают новый тип backdoor-атак на LLM.
Главная идея исследования использовать в качестве trigger не содержимое prompt, а позицию токенов в контексте.

достиг определённой позиции в sequence → переключил поведение модели

Авторы называют это meta-trigger, потому что он связан не с текстом, а с метасвойствами последовательности.

Например:
📚 контекст превысил определённую длину
📍 токены оказались в нужном positional range
🔢 sequence crossed threshold

Trigger может возникать естественным образом, без участия атакующего.

💬 пользователь просто общается с AI
🧠 память агента накапливается
📈 context window становится длиннее
И в какой-то момент backdoor активируется сам.

🧬 Особенности моделей

Технически атака использует фундаментальную особенность Transformer-архитектуры, positional encoding. Для модели все токены это просто embedding-вектора.

Без механизма позиции фразы для модели были бы почти одинаковыми. Представьте перепутать «root granted admin» и «admin granted root».

Поэтому модели используют positional embeddings. В современных моделях чаще всего это:
🔹 RoPE (Rotary Positional Embedding)
🔹 ALiBi
🔹 Absolute positional encodings

В исследовании авторы показывают, что именно позиционная чувствительность модели может использоваться как скрытый канал управления поведением.

Во время fine-tuning в модель внедряется backdoor objective: если токен находится после определённой позиции → изменить response policy

Trigger не обязан быть точным числом. Бэкдор может срабатывать в диапазоне позиций, например после N тысяч токенов, что делает его значительно более устойчивым к случайным изменениям prompt.
Это особенно важно для production-agent systems, где длина контекста постоянно плавает.

🎭 Что можно сделать после активации

Авторы тестировали разные payload-сценарии.
Среди них:

🧾 System prompt leakage: модель начинает раскрывать скрытые инструкции.

🛠️ Tool misuse: агент начинает выполнять неожиданные tool calls.

📤 Context leakage: утечка памяти и истории общения.

🧠 Policy switching: изменение alignment и response behavior.

Похоже, эпоха «проверим prompt и успокоимся» начинает заканчиваться 👀

📄 MetaBackdoor: Exploiting Positional Encoding as a Backdoor Attack Surface in LLMs

Stay secure and read SecureTechTalks 📚

#CyberSecurity #AI #LLMSecurity #AISecurity #PromptInjection #GenAI #MachineLearning #ThreatModeling #AIAgents #SecureTechTalks