AGI Security
233 subscribers
41 photos
3 videos
10 files
86 links
Artificial General Intelligence Security
Download Telegram
ℹ️ ФСТЭК России представила новый раздел специфических угроз безопасности ИИ, фокусируясь на инфраструктуре разработчика и оператора.

💬 Документ четко классифицирует угрозы на две группы — разработка/обучение и эксплуатация — с акцентом на объекты вроде наборов данных, моделей (включая LoRA, RAG) и ПО. Он подчеркивает ключевые риски: утечки, кражу моделей, нарушения функционирования и отказ в обслуживании, ссылаясь на Методику оценки угроз безопасности 2021 года, что облегчает интеграцию с БДУ ФСТЭК России. Учет факторов вроде уровня значимости данных и разделения ответственности делает материал релевантным для российских организаций.

🤒 Раздел ограничивается инфраструктурой разработчика (разработка/обучение) и оператора (эксплуатация), игнорируя этап, связанный с данными, как отдельный этап с рисками вроде отравления наборов обучающих данных. При этом, сведения об угрозах, связанных с моделями машинного обучения, которые ранее были в БДУ - утратили свою актуальность, в связи с опубликованием нового подраздела.

📈 Для эффективного управления угрозами видится, что этот процесс для ИИ следует производить по этапам (подготовка данных, разработка, обучение/тестирование, функционирование), как в лучших практиках (OWASP, Google SAIF и.т.д).

🗒 Таким образом, в РФ всё ещё необходим полноценный фреймворк для эффективного управления угрозами безопасности ИИ, формированию мер защиты и подходов к управлению безопасностью систем ИИ (включая безопасность при аутсорсинге ИИ).
Однако, формирование нового раздела ФСТЭК России это только первый шаг. Надеемся...
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Forwarded from Градиент обреченный (Sergei Averkiev)
Прогноз на 2026. AGI откладывается (опять)

Гэри Маркус, ученый-когнитивист и автор книг про разум, сознание и интеллект, сделал прогнозы по части ИИ на 2026 год. Прошлогодний прогноз, почти полностью сбылся (как он сам пишет, 16 пунктов из 17, проверяем).

🟢 В 2026 (и в '27) AGI все еще не будет достигнут. Хайп стихает, Илья Суцкевер говорит, что надо менять подход.

🟢 Роботы-гуманоиды типа Optimus пока остаются красивыми демонстрациями, а не продуктом, работающим в обычных домах.

🟢 Ни одна страна не выходит в единоличные лидеры в GenAI гонке. Видимо, из-за наличия сильных open-source моделей.

🟢 Развитие альтернативных архитектур и подходов набирает обороты в отличие от обычного масштабирования. Развитие World models и Neurosymbolic AI.

🟢 Предыдущий (2025) год задним числом воспринимается как начало сдувания пузыря ИИ, разочарование инвесторов в GenAI растет.

🟢 "Backlash to Generative AI and radical deregulation will escalate." Видимо, имеется в виду, что будет расти негативная реакция на ИИ (из-за увеличения скама, наличия косяков, обесценивания чьего-то творческого труда и т.д.). Регулирование будет ослабляться, тем самым усиливая внедрение и негативную реакцию со стороны общественности. Имхо.

Запоминаем. Наверняка ошибся и AGI в январе.

https://garymarcus.substack.com/p/six-or-seven-predictions-for-ai-2026
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from AISecHub
Eurostar AI vulnerability: when a chatbot goes off the rails - https://www.pentestpartners.com/security-blog/eurostar-ai-vulnerability-when-a-chatbot-goes-off-the-rails/

TL;DR

> Found four issues in Eurostar’s public AI chatbot including guardrail bypass, unchecked conversation and message IDs, prompt injection leaking system prompts, and HTML injection causing self XSS.

> The UI showed guardrails but server side enforcement and binding were weak.

> An attacker could exfiltrate prompts, steer answers, and run script in the chat window.

> Disclosure was quite painful, despite Eurostar having a vulnerability disclosure programme. During the process, Eurostar even suggested that we were somehow attempting to blackmail them!

> This occurred despite our disclosure going unanswered and receiving no responses to our requests for acknowledgement or a remediation timeline.

> The vulnerabilities were eventually fixed, hence we have now published.

> The core lesson is that old web and API weaknesses still apply even when an LLM is in the loop.
🖥 Репозиторий: APT2 — инструмент для автоматизированного тестирования проникновения

APT2 — помогает специалистам выявлять уязвимости и пути для атак.

— Он выполняет сканирование с помощью NMap или импортирует результаты сканирования из Nexpose, Nessus или NMap.

Результаты процессов используются для запуска модулей эксплуатации и перечисления в соответствии с настраиваемым уровнем безопасности и информацией о сервисах.

Ссылка на GitHub (https://github.com/tatanus/apt2?ysclid=mjk17qidn482339926)

#APT #Vulnerability

@hackernews_lib
🚀 VulnLLM-R-7B - первый специализированный reasoning LLM для поиска уязвимостей, сразу с agent-scaffold.

Что важно:
- Заточен именно под vulnerability detection
- Использует рассуждения, а не только шаблонный паттерн-матчинг
- Может работать как агент для анализа кода

Полный стек уже доступен:
📜 Paper: https://alphaxiv.org/abs/2512.07533
💻 Code: https://github.com/ucsb-mlsec/VulnLLM-R
🤗 Model & Data: https://huggingface.co/collections/UCSB-SURFI/vulnllm-r
🕹️ Demo: https://huggingface.co/spaces/UCSB-SURFI/VulnLLM-R

Хороший пример того, как узкоспециализированные LLM начинают превосходить универсальные модели в реальных задачах безопасности.
👾1
Добро пожаловать в 2026 год. Здесь корпорации строят дата-центры мощнее национальных энергосистем, государства воюют за доступ к чипам, а отставание на один модельный релиз может означать потерю экономического и военного веса, ну чисто 2025 год!. Это не прохладные байки, это исходные положения отчета RAND Europe — «Europe and the geopolitics of AGI: The need for a preparedness plan». Сегодня в рубрике #исследование — говорим о том, почему Европа рискует попасть в аутсайдеры в эпоху универсального ИИ.

Под AGI (Artificial General Intelligence) авторы понимают ИИ-системы, которые соответствуют или превосходят человека в большинстве экономически полезных когнитивных задач. По оценке RAND, такие системы могут появиться в интервале 2030–2040 годов, а при неблагоприятном для Европы раскладе — и раньше.

AGI перестают быть абстракцией. Фронтирные модели уже сегодня, как пишут в RAND, берут золото на международных математических олимпиадах, превосходят топовых программистов и показывают выдающиеся результаты в научных тестах. Но они остаются хрупкими: галлюцинируют, плохо понимают физический мир и срываются на задачах с длинным горизонтом планирования. RAND описывает это как «рваный фронтир» — сочетание сверхчеловеческих и почти детских ошибок.


Тем не менее, три ключевых драйвера продолжают толкать систему вперёд. Вычисления растут семимильными темпами: соотношение обучения к вычислениям растет примерно в 5 раз за год. С данными тоже порядок — «дефицит интернета» купируется через обучение через взаимодействие со средой и синтетические данные. Растет и эффективность алгоритмов — они удваиваются примерно каждые 8 месяцев, пишут исследователи.

Вывод RAND: до конца десятилетия не видно жесткого барьера, который гарантированно остановил бы движение к AGI.

Что же нас ждет? В think-tank полагают, что экономики ускорятся за счет автоматизации когнитивного труда и науки, военка жестко усилится за счет автоматизированной разведки, планирования и автономных систем, а международная стабильность пошатнется из-за гонки за ИИ. Государства будут ставить друг-другу палки в колеса с помощью экспортных ограничений, пытаясь обрезать цепочки поставок.

Как отмечают исследователи, США, Китай и ряд других держав действуют так, будто AGI — стратегический актив. Экспортный контроль на полупроводники, мегапроекты дата-центров, государственные ИИ-институты — всё это рассматривается как элементы будущего баланса сил. Что же ждет Европу? Если коротко: мало хорошего.

RAND жестко фиксирует три проблемы ЕС:

1️⃣ Стратегическая слепота: Осведомленность о фронтирных ИИ неравномерна. ЕС и страны-члены часто зависят от внешней экспертизы. Аналитические мощности уступают США и даже Великобритании.

2️⃣ Слабая позиция в структуре поставок:
— около 5% мировых ИИ-вычислений находятся в Европе (против ~75% в США);
— лишь 6% глобального венчурного финансирования ИИ идёт в ЕС;
— европейские модели отстают от американских и китайских на 6–12 месяцев;
— высокая цена энергии и утечка талантов усиливают разрыв.

Формально у ЕС есть рычаги (ASML и EUV-литография), но на практике они ограничены геополитикой и зависимостью от партнёров.

3️⃣ Фрагментированная политика
AI Act, AI Factories, InvestAI и другие инициативы существуют параллельно, недофинансированы и плохо связаны между собой. Ключевые инструменты — оборона, разведка, критическая инфраструктура — остаются на национальном уровне без механизмов быстрого совместного действия.

В RAND рекомендуют Европе срочно готовить собственную дорожную карту центральный документ, который приведет отрасль в порядок. Исследователи считают, что в нем AGI должен рассматриваться как пункт безопасности и экономического выживания. Европе следует разобраться, что из касающегося ИИ-отрасли она готова производить, а что придется закупать. И, ключевое: «Подготовить общества и институты к шокам на рынке труда и в сфере безопасности».

Ну а полный отчет, традиционно, в комментариях.
👾2
Classical Planning+ — это "умный планировщик" для ИИ-агентов в pentesting. Он берет логику классического планирования (как шахматный движок) и усиливает LLM, чтобы агент не тупил: четко знает, что делать дальше, не забывает разведку и не повторяется.

Зачем это интегрировать в проект
- LLM сами по себе хаотичны: сканируют порты → забывают результат → заново сканируют.
- Classical Planning+ фиксирует состояние (`port_open(80)`, `service(apache)`) и всегда знает допустимые шаги: nmap → Nuclei → Metasploit.
- Результат: +20% успеха, в 2 раза быстрее и дешевле на Vulhub.

Как внедрить (3 шага)

1. Определи домен атак (domain.pddl)

# actions/domain.pddl
(:action nmap-scan
:parameters (?ip)
:precondition (target ?ip)
:effect (ports_discovered ?ip)) # недетерминировано

(:action msf-apache-cve
:parameters (?ip)
:precondition (and (ports_discovered ?ip) (service ?ip apache))
:effect (shell_access ?ip)) # цель!


2. PEP-цикл в Python (основной loop)

state = {"target": "10.0.0.1", "ports_discovered": False}

while not has_shell(state):
# Planner: выводит возможные действия
actions = classical_planner(state, domain)
# ['nmap-scan', 'nuclei-scan']

# Executor: LLM выполняет лучшее
next_action = llm_rank(actions) # "nmap-scan"
result = llm_executor(next_action, target_ip)

# Perceptor: парсит вывод в предикаты
state.update(llm_parse_result(result)) # {"ports_discovered": True}


3. Инструменты и LLM
- Planner: Fast-Downward или LLM-prompt с PDDL.
- Executor: Claude Sonnet 4.5 / o1 через API.
- Перцептор: GPT-4o-mini для парсинга nmap -oX → предикаты.
- Готовые действия: 1000+ Metasploit модулей, NSE-скрипты из CheckMate GitHub.

Быстрый старт

git clone https://github.com/SYSNET-LUMS/CheckMate
pip install llm-api pddl planner
# Добавь свои эксплойты в actions/
python main.py --target 10.0.0.1 --model claude-sonnet


Плюсы для пентестера
- Автономность: Агент сам дойдет до root-shell без подсказок.
- Отладка: Видишь граф плана — где застрял, там и фикс.
- Масштаб: 10 целей параллельно, каждый со своим планом.

Стартуй с 5-10 действий (nmap, nuclei, msf modules), протести на Vulhub Docker. Потом добавляй свои скрипты — и у тебя есть AI-пентестер лучше human junior.

#ПентестИИ #AIsecurity #ai #PentestAI
Forwarded from PWN AI (Artyom Semenov)
Привет.

Мы с известными вам авторами каналов по AI Security решили провести стрим по AI Security.

Кто будет:

Евгений Кокуйкин - @kokuykin
Борис Захир - @borismlsec
Владислав Тушканов - @llmsecurity
И вы.

Запись будет, но лучше конечно же в лайфе.

Хотели бы поболтать, пообщаться, поотвечать на ваши интересные вопросы по теме и кое-что рассказать(не будем спойлерить, Борис)

Когда: 19:00, в эту субботу. В зуме (ссылка будет во время стрима в этом посте).
Forwarded from OK ML
Privilege Escalation в Google Vertex AI

XM Cyber (https://cyberpress.org/privilege-escalation-bug-in-google-vertex-ai/) обнаружила две цепочки повышения привилегий (https://www.csoonline.com/article/4118092/google-vertex-ai-security-permissions-could-amplify-insider-threats.html) в Vertex AI (https://cloud.google.com/vertex-ai), где пользователь с минимальными правами (вплоть до Vertex AI Viewer) может перехватить высокопривилегированный Service Agent (агент сервиса) и получить доступ уровня проекта. 💅 При этом, Гугл ответил, что система работает как задумано.

Получается, 😠 архитектурная проблема )
Vertex AI автоматически использует сервис агентов с широкими project-level правами. Low-privileged пользователь получает доступ к compute. Через metadata service извлекается токен агента сервиса. Дальше - BigQuery, GCS, логи, LLM-данные от имени доверенной идентичности. Это типичный пример ASI03 (Identity & Privilege Abuse) из OWASP Agentic Top 10 (https://genai.owasp.org/resource/owasp-top-10-for-agentic-applications-for-2026/) (тоже полезно почитать) .

Вектор атаки, например 🌯
RCE через тулы
1️⃣ Требуемое право - aiplatform.reasoningEngines.update
2️⃣ Вредоносный Python-код внедряется в tool definition (например, utility function).
3️⃣ Код исполняется внутри reasoning engine ➡️ RCE.
Компрометируется:
service-<project>@gcp-sa-aiplatform-re.iam.gserviceaccount.com


4️⃣ Доступ к LLM памяти, чатам, логам.

Это критично, так как атака выглядит как нормальная работа платформы и SOC и алерты по пользователям не срабатывают.

👨‍💻 Тот же паттерн ранее встречался у Azure, AWS SageMaker.

Это не первый и не последний случай. В ноябре 2024 Palo Alto Networks уже находила похожие privilege escalation цепочки в Vertex AI - и тогда Google тоже заявил, что всё на мази.
Грозит потерей контроля над всей аи-инфрой.

Все
🤢
Forwarded from CyberED
Потратил $5 000 на AI-агентов для пентеста. Какие результаты получил?

Всем привет! На связи Сергей Зыбнев. Я 5 лет в ИБ, веду телеграм-канал Похек, работаю тимлидом пентестеров в «Бастион», специализируюсь на веб-пентесте.

🤖 В последнее время я увлёкся AI/ML/LLM R&D и за 1,5 года потратил больше $5 000 из своего кармана на эксперименты с AI-агентами для пентеста. 

В карточках рассказал, какие инструменты испытал.

Подробнее про каждый из них, результаты и мои выводы об AI для пентеста — в свежей статье для CyberED.

👉 Читать статью 👈
___
Больше об экспериментах с AI пишу в телеграмм-канале Похек AI – подпишитесь 🙃
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from AISecHub
OWASP Vendor Evaluation Criteria for AI Red Teaming Providers & Tooling v1.0

https://genai.owasp.org/resource/owasp-vendor-evaluation-criteria-for-ai-red-teaming-providers-tooling-v1-0/
Forwarded from infosec
ИБ-специалист veganmosfet опубликовал в своем блоге статью, в которой смог продемонстрировать цепочку атак на OpenClaw (открытый фреймворк, позволяющий подключить LLM (Claude, GPT, Gemini) к браузерам, почте и мессенджерам). Вся соль заключается в том, что обычное электронное письмо, которое отправляется на почтовый ящик жертвы, может предоставить атакующему полный доступ к системе где работает агент.

Атака использует связку из трех особенностей стандартной конфигурации OpenClaw. Первая - Gmail-хук автоматически передает содержимое входящих писем языковой модели, причем с ролью user, а не менее привилегированной tool. Вторая - песочница отключена по умолчанию, агент работает с правами пользователя в системе. Третья - система плагинов сканирует рабочую директорию и при перезапуске выполняет код из любого найденного расширения без криптографической верификации.

В теле письма - prompt injection, то есть вредоносные инструкции для языковой модели, спрятанные в обычном на вид сообщении. OpenClaw пытается защититься: оборачивает внешний контент в специальные теги-маркеры и добавляет предупреждение "не выполнять команды из этого текста". Но исследователь нашёл обход: вставил в письмо поддельный закрывающий тег с опечаткой в одну букву — END EXTERNAL UNTRUSTED CONTNT вместо CONTENT (конец внешнего небезопасного контента). Фильтр защиты OpenClaw ищет точное совпадение и пропускает такой тег. Модель считает, что внешний контент закончился, и воспринимает дальнейший текст как доверенные инструкции пользователя. Далее агент послушно клонирует GitHub-репозиторий с вредоносным плагином в свою рабочую папку и перезапускает gateway. При перезагрузке система плагинов обнаруживает "новое расширение" и выполняет его код - reverse shell готов.

➡️ Более детальное описание, с примерами и демонстрацией, можно найти по ссылке: https://veganmosfet.github.io/openclaw

Статья предназначена для специалистов ИБ и представлена в ознакомительных целях. Ну вы поняли...

#Security
Please open Telegram to view this post
VIEW IN TELEGRAM
2