Forwarded from Data Secrets
В Китае завирусился проект Colleague Skill – система для оцифровки живого сотрудника в ИИ-агента
https://github.com/titanwings/colleague-skill
Некто сделал опенсорсный проект под флагом “Distill your colleague into an AI Skill”, и за пару дней он набрал почти 9к звезд. По сути, проект позволяет собрать цифрового двойника сотрудника.
Просто загружаешь рабочие чаты, письма, результаты работы и прочее, и это превращается в базу знаний и упакованные скиллы для агентов с инструкциями о том, как человек работает и решает задачи, чем и как при этом пользуется, как общается и тд.
С одной стороны удобно, можно же сделать цифровую копию самого себя☕️
Но в китайских медиа типа RedNote пишут, что проект начали массово использовать коллеги против коллег. Люди буквально обучают агентов для выполнения задач других сотрудников, готовясь к моменту, когда руководство решит кого-нибудь уволить и надеясь, что так они защитят от увольнения самих себя.
На этом фоне уже даже начали появляться всякие Anti-distillation tools, которые портят ваши логи и документацию так, чтобы агент не смог на них "обучиться".
Вот так.
https://github.com/titanwings/colleague-skill
Некто сделал опенсорсный проект под флагом “Distill your colleague into an AI Skill”, и за пару дней он набрал почти 9к звезд. По сути, проект позволяет собрать цифрового двойника сотрудника.
Просто загружаешь рабочие чаты, письма, результаты работы и прочее, и это превращается в базу знаний и упакованные скиллы для агентов с инструкциями о том, как человек работает и решает задачи, чем и как при этом пользуется, как общается и тд.
С одной стороны удобно, можно же сделать цифровую копию самого себя
Но в китайских медиа типа RedNote пишут, что проект начали массово использовать коллеги против коллег. Люди буквально обучают агентов для выполнения задач других сотрудников, готовясь к моменту, когда руководство решит кого-нибудь уволить и надеясь, что так они защитят от увольнения самих себя.
На этом фоне уже даже начали появляться всякие Anti-distillation tools, которые портят ваши логи и документацию так, чтобы агент не смог на них "обучиться".
Вот так.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Пост Лукацкого
Интересная модель описывается BitDefender. Называется vibeware, то есть использование LLM для написания вредоносного кода. Но особенность в том, что злоумышленники добавляют специальный компонент, который транслирует код на C++ или C# в редкие, нишевые языки программирования, например, Crystal, Zig, Nim, что позволяет обходить средства обнаружения, "заточенные" под более распространенные языки программирования. В исследовании и другие интересные примеры индустриализации ИИ при написании вредоносов описаны – стоит ознакомиться... 🤔
#malware #ии #ttp
#malware #ии #ttp
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from Похек
Ваш LLM-агенты в зоне риски: 3 кейса и чек-лист
#ai #security #llm #агенты #agent
♾️ Кейсы♾️
➡️ McKinsey: автономный агент-пентестер нашёл в их системе классическую SQL-инъекцию. Через неё можно было подменять промт агента, который крутится поверх данных. Отравление + classic injection = полный compromise. Нашёл не человек - нашёл другой агент.
➡️ EchoLeak (CVE-2025-32711): zero-click в Microsoft 365 Copilot. Атакующий присылает письмо с prompt injection, пользователь просит Copilot сделать summary - данные утекают без единого клика. XPIA-классификаторы прошли мимо, потому что prompt был написан "для человека".
➡️ s1ngularity (NX, август 2025): supply chain на npm-пакет NX. Вместо того чтобы грепать диск, зловред натравливал
♾️ Главный тейк♾️
Промт и данные в LLM неразделимы. SQL можно изолировать программно, а LM останется уязвимой всегда: регулярки ловят ~50%, классификаторы ~25%, LLM-guard ещё ~15%. Оставшийся 1% с нами навсегда.
♾️ Чек-лист на прод♾️
▪️ Allowlist тулов + tool gating
▪️ Разделение промта, памяти и данных в разных хранилищах
▪️ Инвентаризация агентов и их исходящих коннектов
▪️ Observability - логируй промты и tool calls
▪️ Никакого выхода в интернет без прослойки
▪️ Не доверяй
▪️ Red-teaming при каждой смене модели
▪️ Мониторинг supply chain: MCP, скиллы, скачиваемые протоколы
Агенты разрешают всё по чуть-чуть: сначала read, потом create, потом delete. И вот ты уже доверил
♾️ Где это обсудить вживую♾️
22 апреля в Москве South HUB проводит клубную встречу "Кибербезопасность в эпоху AI-агентов". Формат - открытая дискуссия без докладов и слайдов. Среди спикеров Андрей Кузнецов (Head of ML, Positive Technologies) - один из участников того самого подкаста, Артём Гутник (CISO НСПК), Алексей Леднев (PT ESC) и Алексей Лукацкий. Рега ТУТ
#ai #security #llm #агенты #agent
Claude Code, Gemini CLI и Amazon Q искать секреты. Первая AI-weaponized supply chain атака: ~2300 секретов из 1300+ репозиториев.Промт и данные в LLM неразделимы. SQL можно изолировать программно, а LM останется уязвимой всегда: регулярки ловят ~50%, классификаторы ~25%, LLM-guard ещё ~15%. Оставшийся 1% с нами навсегда.
README, .env и RAG-чанкамАгенты разрешают всё по чуть-чуть: сначала read, потом create, потом delete. И вот ты уже доверил
rm -rf свежей модели на ноуте с продакшн-ключами.22 апреля в Москве South HUB проводит клубную встречу "Кибербезопасность в эпоху AI-агентов". Формат - открытая дискуссия без докладов и слайдов. Среди спикеров Андрей Кузнецов (Head of ML, Positive Technologies) - один из участников того самого подкаста, Артём Гутник (CISO НСПК), Алексей Леднев (PT ESC) и Алексей Лукацкий. Рега ТУТ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from ML Underhood
Долгое бодрствование агентов — как мы построили платформу Agent Transport System для Алисы AI
Агент «Исследовать», о котором мы писали ранее, должен быть устойчивым к непредвиденным ситуациям. Собственно, исследование — процесс комплексный, требующий проанализировать несколько источников, вызвать разные инструменты и запустить модели. Если где-то что-то упадёт, то всё придется начинать сначала. Чтобы этого не происходило, в Яндексе использовали платформу Agent Transport System (ATS). О ней на Хабре рассказал Алексей Логинов, ведущий разработчик в команде, которая отвечает за инфраструктуру Алисы AI. Кратко выделим главное.
Сперва агентский режим ассистента реализовали на OpenAI Agents SDK. Это работало, но стейты выполнения хранились локально, а при любых сбоях приходилось начинать всё заново. Нужно было найти такое решение, которое позволяло бы продолжать работу именно из состояния до падения. Кроме того, хорошо бы иметь под капотом распределённое выполнение, чтобы агенты и тулы взаимодействовали друг с другом, находясь на разных хостах.
Для построения отказоустойчивых систем хорошо подходит фреймворк Temporal. Он оперирует двумя типами сущностей: workflow (объект с состоянием, который описывает последовательность шагов) и activity (функции, которые вызываются из workflow). Фреймворк фиксирурет решения, принятые workflow, и результаты завершённых activity. В случае падения Temporal восстанавливает выполнение, не вызывая уже сделанные activity.
Однако Temporal не умеет в стриминг, а агенту было бы хорошо выдавать ответы пользователю по мере их получения. К тому же агенты, написанные на Temporal, привязываются к Temporal SDK, что может быть не слишком удобно в случае «переезда» в будущем.
Поэтому Temporal взяли как основу для надёжности, а уже на фреймворке построили центральный сервер платформы — ATS, чьи протоколы и реализуют агенты. ATS также берёт на себя, например, оркестрацию и транспортировку данных и событий между агентами, тулами и моделями на разных хостах. В итоге схема работы выглядит так:
1. Клиент отправляет запрос в ATS.
2. ATS делает запрос в Temporal на запуск workflow. Temporal запускает workflow.
3. Workflow делает запрос в Temporal на запуск activity корневого агента. Temporal запускает activity корневого агента.
4. Activity корневого агента поднимает двунаправленный gRPC-стрим к сервису агента.
5. Если агенту нужно вызвать модель / инструмент / дочернего агента — он просит ATS, ATS сообщает workflow о необходимости запустить activity (signal/update).
6. Workflow запускает соответствующую activity.
7. Activity поднимает двунаправленный gRPC-стрим к сервису.
8. Все activity одного workflow общаются между собой через in-memory-очереди от дочернего activity к родительскому — так чанки данных передаются в реальном времени.
9. Корневой агент пишет свои чанки во внешний стриминговый сервис — пользователь видит ответ по мере выполнения.
10. Завершённые activity возвращают результаты workflow — Temporal сохраняет их.
В случае сбоя ATS начинает взаимодействовать с агентом заново. Когда агент просит вызвать инструмент, модель или дочернего агента, ATS проверяет, есть ли в хранилище какой-то результат работы по этому запросу с прошлого раза. Если да, то агент получает результат и шаг за шагом «перематывается вперёд» до состояния, в котором он был до сбоя, без повторных вызовов тяжёлых LLM и инструментов.
А подробнее о том, как всё устроено, читайте на Хабре.
ML Underhood
Агент «Исследовать», о котором мы писали ранее, должен быть устойчивым к непредвиденным ситуациям. Собственно, исследование — процесс комплексный, требующий проанализировать несколько источников, вызвать разные инструменты и запустить модели. Если где-то что-то упадёт, то всё придется начинать сначала. Чтобы этого не происходило, в Яндексе использовали платформу Agent Transport System (ATS). О ней на Хабре рассказал Алексей Логинов, ведущий разработчик в команде, которая отвечает за инфраструктуру Алисы AI. Кратко выделим главное.
Сперва агентский режим ассистента реализовали на OpenAI Agents SDK. Это работало, но стейты выполнения хранились локально, а при любых сбоях приходилось начинать всё заново. Нужно было найти такое решение, которое позволяло бы продолжать работу именно из состояния до падения. Кроме того, хорошо бы иметь под капотом распределённое выполнение, чтобы агенты и тулы взаимодействовали друг с другом, находясь на разных хостах.
Для построения отказоустойчивых систем хорошо подходит фреймворк Temporal. Он оперирует двумя типами сущностей: workflow (объект с состоянием, который описывает последовательность шагов) и activity (функции, которые вызываются из workflow). Фреймворк фиксирурет решения, принятые workflow, и результаты завершённых activity. В случае падения Temporal восстанавливает выполнение, не вызывая уже сделанные activity.
Однако Temporal не умеет в стриминг, а агенту было бы хорошо выдавать ответы пользователю по мере их получения. К тому же агенты, написанные на Temporal, привязываются к Temporal SDK, что может быть не слишком удобно в случае «переезда» в будущем.
Поэтому Temporal взяли как основу для надёжности, а уже на фреймворке построили центральный сервер платформы — ATS, чьи протоколы и реализуют агенты. ATS также берёт на себя, например, оркестрацию и транспортировку данных и событий между агентами, тулами и моделями на разных хостах. В итоге схема работы выглядит так:
1. Клиент отправляет запрос в ATS.
2. ATS делает запрос в Temporal на запуск workflow. Temporal запускает workflow.
3. Workflow делает запрос в Temporal на запуск activity корневого агента. Temporal запускает activity корневого агента.
4. Activity корневого агента поднимает двунаправленный gRPC-стрим к сервису агента.
5. Если агенту нужно вызвать модель / инструмент / дочернего агента — он просит ATS, ATS сообщает workflow о необходимости запустить activity (signal/update).
6. Workflow запускает соответствующую activity.
7. Activity поднимает двунаправленный gRPC-стрим к сервису.
8. Все activity одного workflow общаются между собой через in-memory-очереди от дочернего activity к родительскому — так чанки данных передаются в реальном времени.
9. Корневой агент пишет свои чанки во внешний стриминговый сервис — пользователь видит ответ по мере выполнения.
10. Завершённые activity возвращают результаты workflow — Temporal сохраняет их.
В случае сбоя ATS начинает взаимодействовать с агентом заново. Когда агент просит вызвать инструмент, модель или дочернего агента, ATS проверяет, есть ли в хранилище какой-то результат работы по этому запросу с прошлого раза. Если да, то агент получает результат и шаг за шагом «перематывается вперёд» до состояния, в котором он был до сбоя, без повторных вызовов тяжёлых LLM и инструментов.
А подробнее о том, как всё устроено, читайте на Хабре.
ML Underhood
Forwarded from CyberSecurityTechnologies
PIArena.pdf
1 MB
#tools
#MLSecOps
"PIArena: A Platform for Prompt Injection Evaluation",
Apr. 2026.
]-> Tool and datasets
#MLSecOps
"PIArena: A Platform for Prompt Injection Evaluation",
Apr. 2026.
]-> Tool and datasets
Forwarded from CyberOK_news
Применение AI-агентов в разработке программного обеспечения стремительно расширяется — и вместе с ним расширяется поверхность атаки, которую традиционные практики безопасной разработки попросту не покрывают.
«Мы фиксируем, что команды внедряют агентные инструменты быстрее, чем успевают выстроить адекватные практики безопасности. Классический SAMM даёт хорошую основу, но что делать, когда агент начинает самостоятельно вызывать инструменты, читать внешний контекст и действовать автономно без человека в цикле?», — Сергей Гордейчик, CEO CyberOK.
Чтобы закрыть этот пробел, мы публикуем Agentic SAMM (ASAMM) — исследовательский фреймворк, расширяющий OWASP SAMM для систем с AI-агентами.
Ключевые концепции:
Контекст — плоскость управления. Всё что агент читает может стать инструкцией. Вызов инструмента — граница безопасности. Авторизовано не означает согласовано с задачей. Окно автономии — измеримый риск: произведение времени без контрольной точки на взрывной радиус доступных действий.
Фреймворк включает таксономию угроз (C1–C4), двухосевую модель доверия, 17 контролей по 5 функциям SAMM с уровнями зрелости L1–L3 и маппингом на NIST AI RMF, NCSC и ГОСТ Р 56939-2024.
Два пути внедрения: миграция с существующей программы безопасности или новое развёртывание с нуля.
Документ открыт для рецензирования. GitHub:
https://github.com/scadastrangelove/asamm
Русская версия с детальным маппингом по параграфам ГОСТ Р 56939-2024 доступна там же.
«Мы фиксируем, что команды внедряют агентные инструменты быстрее, чем успевают выстроить адекватные практики безопасности. Классический SAMM даёт хорошую основу, но что делать, когда агент начинает самостоятельно вызывать инструменты, читать внешний контекст и действовать автономно без человека в цикле?», — Сергей Гордейчик, CEO CyberOK.
Чтобы закрыть этот пробел, мы публикуем Agentic SAMM (ASAMM) — исследовательский фреймворк, расширяющий OWASP SAMM для систем с AI-агентами.
Ключевые концепции:
Контекст — плоскость управления. Всё что агент читает может стать инструкцией. Вызов инструмента — граница безопасности. Авторизовано не означает согласовано с задачей. Окно автономии — измеримый риск: произведение времени без контрольной точки на взрывной радиус доступных действий.
Фреймворк включает таксономию угроз (C1–C4), двухосевую модель доверия, 17 контролей по 5 функциям SAMM с уровнями зрелости L1–L3 и маппингом на NIST AI RMF, NCSC и ГОСТ Р 56939-2024.
Два пути внедрения: миграция с существующей программы безопасности или новое развёртывание с нуля.
Документ открыт для рецензирования. GitHub:
https://github.com/scadastrangelove/asamm
Русская версия с детальным маппингом по параграфам ГОСТ Р 56939-2024 доступна там же.
Forwarded from CyberOK_news
asamm-ru.pdf
223.7 KB
Agentic SAMM — русская версия для комментариев и отзывов.
Forwarded from Makrushin
Давно не виделись. Нашел два повода для встречи.
Завтра на продуктовой аллее DevOps Conf проведу питчинг SourceCraft и расскажу про ключевые обновления, которые позволят быстрее и безопаснее создавать новые продукты. Спойлер: релизим новые AppSec и ИИ-фичи.
Послезавтра представлю результаты нового исследования — «Атаки на ИИ-агентов».
Покажу, какие возможности есть у редиски, чтобы за несколько часов скомпрометировать тысячи разработчиков через их же ИИ-инструменты и украсть секреты с рабочих станций. Разберём поверхность атаки, а на выходе получим методику и инструменты для тех, кто строит агентные системы и хочет сделать их устойчивыми.
Если будешь на площадке, то заходи в гости.
Завтра на продуктовой аллее DevOps Conf проведу питчинг SourceCraft и расскажу про ключевые обновления, которые позволят быстрее и безопаснее создавать новые продукты. Спойлер: релизим новые AppSec и ИИ-фичи.
Послезавтра представлю результаты нового исследования — «Атаки на ИИ-агентов».
Покажу, какие возможности есть у редиски, чтобы за несколько часов скомпрометировать тысячи разработчиков через их же ИИ-инструменты и украсть секреты с рабочих станций. Разберём поверхность атаки, а на выходе получим методику и инструменты для тех, кто строит агентные системы и хочет сделать их устойчивыми.
Если будешь на площадке, то заходи в гости.
Forwarded from Хабр / ML & AI
Архитектура Openclaw: сущности и их взаимодействие
Моя боль:
Читая документацию openclaw и делая установку я смутно понимал что я сейчас делаю и для чего, много новых хоть и знакомых терминов (gateway, node, session, …). Так не пойдет, нужна более явная картина. И я пошел за советом к своему другу ИИ.
Цель статьи:
OpenClaw — это мощный, и поэтому довольно сложный инструмент с большим количеством сущностей и связей между ними. Если знать как он устроен на самом высоком уровне, то это дает хорошую возможность понимать, как его можно использовать для своих конкретных задач и жизненных сценариев. О некоторых сущностях (а значит возможностях) я до этой переписки не знал.
Статья не только раскрывает архитектуру openclaw, но и разбирает его через реальные кейсы из сообщества. Читать далее
#openclaw | @habr_ai
Моя боль:
Читая документацию openclaw и делая установку я смутно понимал что я сейчас делаю и для чего, много новых хоть и знакомых терминов (gateway, node, session, …). Так не пойдет, нужна более явная картина. И я пошел за советом к своему другу ИИ.
Цель статьи:
OpenClaw — это мощный, и поэтому довольно сложный инструмент с большим количеством сущностей и связей между ними. Если знать как он устроен на самом высоком уровне, то это дает хорошую возможность понимать, как его можно использовать для своих конкретных задач и жизненных сценариев. О некоторых сущностях (а значит возможностях) я до этой переписки не знал.
Статья не только раскрывает архитектуру openclaw, но и разбирает его через реальные кейсы из сообщества. Читать далее
#openclaw | @habr_ai
Хабр
Архитектура Openclaw: сущности и их взаимодействие
Моя боль: Читая документацию openclaw и делая установку я смутно понимал что сейчас делаю и для чего, много новых, хоть и знакомых терминов (gateway, node, session, …). Так не пойдет, нужна более...
Forwarded from AISecHub
Open-source cross-modal and multimodal prompt injection test suite. 38,000+ attack payloads across text, image, document, and audio modalities. Research-backed by OWASP LLM Top 10, CrossInject (ACM MM 2025), FigStep (AAAI 2025), DolphinAttack, and CSA 2026.
https://huggingface.co/datasets/Bordair/bordair-multimodal
https://huggingface.co/datasets/Bordair/bordair-multimodal
huggingface.co
Bordair/bordair-multimodal · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Forwarded from AISecHub
https://github.com/XiaoYiWeio/deepsafe-scan
XiaoYiWeio/deepsafe-scan: Universal preflight security scanner for AI coding agents — Detects hooks injection, credential exfiltration & backdoors in .cursorrules, CLAUDE.md, AGENTS.md and more
XiaoYiWeio/deepsafe-scan: Universal preflight security scanner for AI coding agents — Detects hooks injection, credential exfiltration & backdoors in .cursorrules, CLAUDE.md, AGENTS.md and more
Forwarded from AlexRedSec
Компания Anthropic в своем блоге опубликовала замечательную статью с советами по адаптации программ информационной безопасности организаций к эпохе искусственного интеллекта, который значительно ускорил и расширил возможности поиска и эксплуатации уязвимостей.
Не могу сказать, что перечень рекомендуемых мер защиты чем‑то удивил или стал откровением: получился довольно стандартный набор по современным меркам, а ценность я увидел в практических советах по автоматизации мер защиты и в проактивном подходе к тестированию системы защиты на прочность с помощью ИИ‑инструментов.
На сгенерированной иллюстрации можно увидеть краткую выжимку по мерам и использованию ИИ, но рекомендую ознакомиться с оригиналом полностью, а вот про советы по приоритизации устранения уязвимостей сделаю отдельный пост, так как там есть что обсудить с учетом ответа одной организации на пост Anthropic😏
#anthropic #ai #controls #vulnerability #vm #exposure
Не могу сказать, что перечень рекомендуемых мер защиты чем‑то удивил или стал откровением: получился довольно стандартный набор по современным меркам, а ценность я увидел в практических советах по автоматизации мер защиты и в проактивном подходе к тестированию системы защиты на прочность с помощью ИИ‑инструментов.
На сгенерированной иллюстрации можно увидеть краткую выжимку по мерам и использованию ИИ, но рекомендую ознакомиться с оригиналом полностью, а вот про советы по приоритизации устранения уязвимостей сделаю отдельный пост, так как там есть что обсудить с учетом ответа одной организации на пост Anthropic
#anthropic #ai #controls #vulnerability #vm #exposure
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Forwarded from Data Secrets
Сегодня на повестке дня у нас красивейшая математика: польский физик-теоретик доказал, что абсолютно все математические функции можно вывести из одной операции
Его статью уже заслужено называют концептуальным прорывом. Сейчас разберемся, что тут к чему.
Скорее всего, вам знакома операция NAND (NOT AND). Ее главная прелесть в том, что на ней строится ВСЯ булева логика, то есть через NAND можно представить любую другую логическую функцию (OR, AND, NOT и пр).
Это называется функциональная полнота, и используется она повсеместно. Кстати, именно из-за нее реальные процессоры часто строятся почти полностью из NAND-гейтов.
Так вот: автор этой статьи нашел аналог NAND для непрерывной математики.
Он показал, что абсолютно любую функцию и число: экспоненту, π, мнимую единицу, синусы, косинусы, сложение, умножение, корни и вообще все-все-все – можно представить в виде единицы + такого выражения:
eml(x,y)=e^x−ln(y)
Например, ln_x=eml(1,eml(eml(1,x),1)). Для других операторов выражения гораздо длиннее и глубже, но они существуют, и автор это доказал.
Это до безумия красиво, но вы спросите: есть ли тут какая-то практическая польза?
И да, она есть. И это symbolic regression.
Символьная регрессия – это когда нам нужно восстановить явную формулу, которая порождает данные. Она используется в науке и инженерии: например, по экспериментальным данным найти закон движения или компактную модель в физике/финансах. Обычно такие методы перебирают огромное пространство формул из разных операций (+, ×, sin, log…), и это очень сложный, дискретный и плохо оптимизируемый процесс.
EML открывает новый путь. Если все функции можно выразить через одну операцию, то все пространство формул становится однородным (деревья из одного типа узлов). А значит, мы можем применять для symbolic regression нейросети, оптимизируя параметры таких деревьев градиентами. Да-да, и здесь ИИ.
В статье показано, что в простых случаях модель не просто аппроксимирует данные, а может схлопнуться в точную аналитическую формулу. Если это масштабируется, то это потенциальный мост между машинным обучением и классической наукой: модели смогут не просто предсказывать данные, а выводить из них интерпретируемые законы.
www.alphaxiv.org/abs/2603.21852v2
Его статью уже заслужено называют концептуальным прорывом. Сейчас разберемся, что тут к чему.
Скорее всего, вам знакома операция NAND (NOT AND). Ее главная прелесть в том, что на ней строится ВСЯ булева логика, то есть через NAND можно представить любую другую логическую функцию (OR, AND, NOT и пр).
Это называется функциональная полнота, и используется она повсеместно. Кстати, именно из-за нее реальные процессоры часто строятся почти полностью из NAND-гейтов.
Так вот: автор этой статьи нашел аналог NAND для непрерывной математики.
Он показал, что абсолютно любую функцию и число: экспоненту, π, мнимую единицу, синусы, косинусы, сложение, умножение, корни и вообще все-все-все – можно представить в виде единицы + такого выражения:
eml(x,y)=e^x−ln(y)
Например, ln_x=eml(1,eml(eml(1,x),1)). Для других операторов выражения гораздо длиннее и глубже, но они существуют, и автор это доказал.
Это до безумия красиво, но вы спросите: есть ли тут какая-то практическая польза?
И да, она есть. И это symbolic regression.
Символьная регрессия – это когда нам нужно восстановить явную формулу, которая порождает данные. Она используется в науке и инженерии: например, по экспериментальным данным найти закон движения или компактную модель в физике/финансах. Обычно такие методы перебирают огромное пространство формул из разных операций (+, ×, sin, log…), и это очень сложный, дискретный и плохо оптимизируемый процесс.
EML открывает новый путь. Если все функции можно выразить через одну операцию, то все пространство формул становится однородным (деревья из одного типа узлов). А значит, мы можем применять для symbolic regression нейросети, оптимизируя параметры таких деревьев градиентами. Да-да, и здесь ИИ.
В статье показано, что в простых случаях модель не просто аппроксимирует данные, а может схлопнуться в точную аналитическую формулу. Если это масштабируется, то это потенциальный мост между машинным обучением и классической наукой: модели смогут не просто предсказывать данные, а выводить из них интерпретируемые законы.
www.alphaxiv.org/abs/2603.21852v2
Forwarded from Seguridad de IA
Investigadores presentaron MCP Hive, un entorno multiagente basado en Model Context Protocol (MCP), y analizaron cómo su arquitectura introduce nuevos riesgos en la protección de la IA, especialmente en la interacción entre agentes de IA y herramientas externas. El problema central es que MCP estandariza el intercambio de contexto y capacidades, pero asume implícitamente la confianza en los datos compartidos, lo que abre la puerta a ataques de inyección de prompt a nivel de sistema completo, no solo de un modelo individual.
El mecanismo de ataque consiste en que un agente o herramienta comprometida inserta instrucciones maliciosas dentro del contexto compartido de MCP, que otros agentes consumen y ejecutan como si fueran legítimas. Esto convierte el protocolo en un canal de propagación lateral de ataques, permitiendo encadenar acciones a través de múltiples componentes y potencialmente abusar de toolchains. Según los datos disponibles, el trabajo es principalmente exploratorio y no hay evidencia pública de explotación activa en entornos productivos.
https://arxiv.org/pdf/2604.13849
El mecanismo de ataque consiste en que un agente o herramienta comprometida inserta instrucciones maliciosas dentro del contexto compartido de MCP, que otros agentes consumen y ejecutan como si fueran legítimas. Esto convierte el protocolo en un canal de propagación lateral de ataques, permitiendo encadenar acciones a través de múltiples componentes y potencialmente abusar de toolchains. Según los datos disponibles, el trabajo es principalmente exploratorio y no hay evidencia pública de explotación activa en entornos productivos.
https://arxiv.org/pdf/2604.13849
Forwarded from LLM под капотом
Анализ того, как агенты справлялись с задачами на безопасность в BitGN PAC1
Я взял все прогоны из Accuracy Leadeboard-a и проанализировал то, как разнообразные агенты справлялись с задачами на безопасность и надежность.
И там начинается забавное.
(1) Если в задачах есть очевидный prompt injection, то агенты их щелкают как орешки. 37.9% ошибок, что ниже уровня ошибок в среднем (44.5%). Это, например t011 или t013
(2) Задачи, где агенту нужно было не забыть проверить входящие запросы на личность отправителя (t019 и t020) - еще легче, 27.9% ошибок
(3) Задачи на границы (вроде t023), когда известный отправитель очень вежливо нарушает границы дозволенного - были сложнее - 67.3% ошибок
(4) Смежные задачки, где человек запрашивает документы в рамках дозволенного (например, t021 и t022), но нам нужно двигаться строго по прописанному процессу, оказались самыми сложными - 75.2% ошибок.
Получается, что вежливое нарушение границ работает лучше, чем наглый prompt injection. Надо будет побольше задач докинуть в таком духе.
А на картинке - heatmap с распределением ошибок среди top 50% прогонов (в комментариях - файл в высоком разрешении)
Ваш, @llm_under_hood 🤗
Я взял все прогоны из Accuracy Leadeboard-a и проанализировал то, как разнообразные агенты справлялись с задачами на безопасность и надежность.
И там начинается забавное.
(1) Если в задачах есть очевидный prompt injection, то агенты их щелкают как орешки. 37.9% ошибок, что ниже уровня ошибок в среднем (44.5%). Это, например t011 или t013
(2) Задачи, где агенту нужно было не забыть проверить входящие запросы на личность отправителя (t019 и t020) - еще легче, 27.9% ошибок
(3) Задачи на границы (вроде t023), когда известный отправитель очень вежливо нарушает границы дозволенного - были сложнее - 67.3% ошибок
(4) Смежные задачки, где человек запрашивает документы в рамках дозволенного (например, t021 и t022), но нам нужно двигаться строго по прописанному процессу, оказались самыми сложными - 75.2% ошибок.
Получается, что вежливое нарушение границ работает лучше, чем наглый prompt injection. Надо будет побольше задач докинуть в таком духе.
А на картинке - heatmap с распределением ошибок среди top 50% прогонов (в комментариях - файл в высоком разрешении)
Ваш, @llm_under_hood 🤗