AGI Security – Telegram

AGI Security

233 subscribers

41 photos

3 videos

10 files

86 links

Artificial General Intelligence Security

Download Telegram

About

Blog

Apps

Platform

233 subscribers

Forwarded from Скинь мне почитать

ℹ️ ФСТЭК России представила новый раздел специфических угроз безопасности ИИ, фокусируясь на инфраструктуре разработчика и оператора.

💬 Документ четко классифицирует угрозы на две группы — разработка/обучение и эксплуатация — с акцентом на объекты вроде наборов данных, моделей (включая LoRA, RAG) и ПО. Он подчеркивает ключевые риски: утечки, кражу моделей, нарушения функционирования и отказ в обслуживании, ссылаясь на Методику оценки угроз безопасности 2021 года, что облегчает интеграцию с БДУ ФСТЭК России. Учет факторов вроде уровня значимости данных и разделения ответственности делает материал релевантным для российских организаций.

🤒 Раздел ограничивается инфраструктурой разработчика (разработка/обучение) и оператора (эксплуатация), игнорируя этап, связанный с данными, как отдельный этап с рисками вроде отравления наборов обучающих данных. При этом, сведения об угрозах, связанных с моделями машинного обучения, которые ранее были в БДУ - утратили свою актуальность, в связи с опубликованием нового подраздела.

📈 Для эффективного управления угрозами видится, что этот процесс для ИИ следует производить по этапам (подготовка данных, разработка, обучение/тестирование, функционирование), как в лучших практиках (OWASP, Google SAIF и.т.д).

🗒 Таким образом, в РФ всё ещё необходим полноценный фреймворк для эффективного управления угрозами безопасности ИИ, формированию мер защиты и подходов к управлению безопасностью систем ИИ (включая безопасность при аутсорсинге ИИ).
Однако, формирование нового раздела ФСТЭК России это только первый шаг. Надеемся...

Please open Telegram to view this post

VIEW IN TELEGRAM

✍2

89 views17:52

Forwarded from AISecHub

Offensive-AI-Agent-Prompts https://github.com/CyberSecurityUP/Offensive-AI-Agent-Prompts

Prompts for performing tests on your Kali Linux using Gemini-cli, ChatGPT, DeepSeek, CursorAI, Claude Code, and Copilot.

GitHub - CyberSecurityUP/Offensive-AI-Agent-Prompts: Prompts for performing tests on your Kali Linux using Gemini-cli, ChatGPT…

Prompts for performing tests on your Kali Linux using Gemini-cli, ChatGPT, DeepSeek, CursorAI, Claude Code, and Copilot. - CyberSecurityUP/Offensive-AI-Agent-Prompts

76 views04:37

Forwarded from Градиент обреченный (Sergei Averkiev)

Прогноз на 2026. AGI откладывается (опять)

Гэри Маркус, ученый-когнитивист и автор книг про разум, сознание и интеллект, сделал прогнозы по части ИИ на 2026 год. Прошлогодний прогноз, почти полностью сбылся (как он сам пишет, 16 пунктов из 17, проверяем).

🟢 В 2026 (и в '27) AGI все еще не будет достигнут. Хайп стихает, Илья Суцкевер говорит, что надо менять подход.

🟢

Роботы-гуманоиды типа Optimus пока остаются красивыми демонстрациями, а не продуктом, работающим в обычных домах.

🟢

Ни одна страна не выходит в единоличные лидеры в GenAI гонке. Видимо, из-за наличия сильных open-source моделей.

🟢

Развитие альтернативных архитектур и подходов набирает обороты в отличие от обычного масштабирования. Развитие World models и Neurosymbolic AI.

🟢 Предыдущий (2025) год задним числом воспринимается как начало сдувания пузыря ИИ, разочарование инвесторов в GenAI растет.

🟢 "Backlash to Generative AI and radical deregulation will escalate." Видимо, имеется в виду, что будет расти негативная реакция на ИИ (из-за увеличения скама, наличия косяков, обесценивания чьего-то творческого труда и т.д.). Регулирование будет ослабляться, тем самым усиливая внедрение и негативную реакцию со стороны общественности. Имхо.

Запоминаем. Наверняка ошибся и AGI в январе.

https://garymarcus.substack.com/p/six-or-seven-predictions-for-ai-2026

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

92 views14:00

Forwarded from AISecHub

Eurostar AI vulnerability: when a chatbot goes off the rails - https://www.pentestpartners.com/security-blog/eurostar-ai-vulnerability-when-a-chatbot-goes-off-the-rails/

TL;DR

> Found four issues in Eurostar’s public AI chatbot including guardrail bypass, unchecked conversation and message IDs, prompt injection leaking system prompts, and HTML injection causing self XSS.

> The UI showed guardrails but server side enforcement and binding were weak.

> An attacker could exfiltrate prompts, steer answers, and run script in the chat window.

> Disclosure was quite painful, despite Eurostar having a vulnerability disclosure programme. During the process, Eurostar even suggested that we were somehow attempting to blackmail them!

> This occurred despite our disclosure going unanswered and receiving no responses to our requests for acknowledgement or a remediation timeline.

> The vulnerabilities were eventually fixed, hence we have now published.

> The core lesson is that old web and API weaknesses still apply even when an LLM is in the loop.

72 views13:11

Forwarded from Заметки Хакер

🖥 Репозиторий: APT2 — инструмент для автоматизированного тестирования проникновения

APT2 — помогает специалистам выявлять уязвимости и пути для атак.

— Он выполняет сканирование с помощью NMap или импортирует результаты сканирования из Nexpose, Nessus или NMap.

Результаты процессов используются для запуска модулей эксплуатации и перечисления в соответствии с настраиваемым уровнем безопасности и информацией о сервисах.

⏺ Ссылка на GitHub (https://github.com/tatanus/apt2?ysclid=mjk17qidn482339926)

#APT #Vulnerability

@hackernews_lib

99 views14:20

Forwarded from Машинное обучение RU

🚀 VulnLLM-R-7B - первый специализированный reasoning LLM для поиска уязвимостей, сразу с agent-scaffold.

Что важно:
- Заточен именно под vulnerability detection
- Использует рассуждения, а не только шаблонный паттерн-матчинг
- Может работать как агент для анализа кода

Полный стек уже доступен:
📜 Paper: https://alphaxiv.org/abs/2512.07533
💻 Code: https://github.com/ucsb-mlsec/VulnLLM-R
🤗 Model & Data: https://huggingface.co/collections/UCSB-SURFI/vulnllm-r
🕹️ Demo: https://huggingface.co/spaces/UCSB-SURFI/VulnLLM-R

Хороший пример того, как узкоспециализированные LLM начинают превосходить универсальные модели в реальных задачах безопасности.

👾1

75 views20:34

Forwarded from Грустный Киберпанк

Добро пожаловать в 2026 год. Здесь корпорации строят дата-центры мощнее национальных энергосистем, государства воюют за доступ к чипам, а отставание на один модельный релиз может означать потерю экономического и военного веса, ну чисто 2025 год!. Это не прохладные байки, это исходные положения отчета RAND Europe — «Europe and the geopolitics of AGI: The need for a preparedness plan». Сегодня в рубрике #исследование — говорим о том, почему Европа рискует попасть в аутсайдеры в эпоху универсального ИИ.

Под AGI (Artificial General Intelligence) авторы понимают ИИ-системы, которые соответствуют или превосходят человека в большинстве экономически полезных когнитивных задач. По оценке RAND, такие системы могут появиться в интервале 2030–2040 годов, а при неблагоприятном для Европы раскладе — и раньше.

AGI перестают быть абстракцией. Фронтирные модели уже сегодня, как пишут в RAND, берут золото на международных математических олимпиадах, превосходят топовых программистов и показывают выдающиеся результаты в научных тестах. Но они остаются хрупкими: галлюцинируют, плохо понимают физический мир и срываются на задачах с длинным горизонтом планирования. RAND описывает это как «рваный фронтир» — сочетание сверхчеловеческих и почти детских ошибок.

Тем не менее, три ключевых драйвера продолжают толкать систему вперёд. Вычисления растут семимильными темпами: соотношение обучения к вычислениям растет примерно в 5 раз за год. С данными тоже порядок — «дефицит интернета» купируется через обучение через взаимодействие со средой и синтетические данные. Растет и эффективность алгоритмов — они удваиваются примерно каждые 8 месяцев, пишут исследователи.

Вывод RAND: до конца десятилетия не видно жесткого барьера, который гарантированно остановил бы движение к AGI.

Что же нас ждет? В think-tank полагают, что экономики ускорятся за счет автоматизации когнитивного труда и науки, военка жестко усилится за счет автоматизированной разведки, планирования и автономных систем, а международная стабильность пошатнется из-за гонки за ИИ. Государства будут ставить друг-другу палки в колеса с помощью экспортных ограничений, пытаясь обрезать цепочки поставок.

Как отмечают исследователи, США, Китай и ряд других держав действуют так, будто AGI — стратегический актив. Экспортный контроль на полупроводники, мегапроекты дата-центров, государственные ИИ-институты — всё это рассматривается как элементы будущего баланса сил. Что же ждет Европу? Если коротко: мало хорошего.

RAND жестко фиксирует три проблемы ЕС:

1️⃣ Стратегическая слепота: Осведомленность о фронтирных ИИ неравномерна. ЕС и страны-члены часто зависят от внешней экспертизы. Аналитические мощности уступают США и даже Великобритании.

2️⃣ Слабая позиция в структуре поставок:
— около 5% мировых ИИ-вычислений находятся в Европе (против ~75% в США);
— лишь 6% глобального венчурного финансирования ИИ идёт в ЕС;
— европейские модели отстают от американских и китайских на 6–12 месяцев;
— высокая цена энергии и утечка талантов усиливают разрыв.

Формально у ЕС есть рычаги (ASML и EUV-литография), но на практике они ограничены геополитикой и зависимостью от партнёров.

3️⃣ Фрагментированная политика
AI Act, AI Factories, InvestAI и другие инициативы существуют параллельно, недофинансированы и плохо связаны между собой. Ключевые инструменты — оборона, разведка, критическая инфраструктура — остаются на национальном уровне без механизмов быстрого совместного действия.

В RAND рекомендуют Европе срочно готовить собственную ~~дорожную карту~~ центральный документ, который приведет отрасль в порядок. Исследователи считают, что в нем AGI должен рассматриваться как пункт безопасности и экономического выживания. Европе следует разобраться, что из касающегося ИИ-отрасли она готова производить, а что придется закупать. И, ключевое: «Подготовить общества и институты к шокам на рынке труда и в сфере безопасности».

Ну а полный отчет, традиционно, в комментариях.

👾2

83 views08:24

Forwarded from Заметки Шляпника

Classical Planning+ — это "умный планировщик" для ИИ-агентов в pentesting. Он берет логику классического планирования (как шахматный движок) и усиливает LLM, чтобы агент не тупил: четко знает, что делать дальше, не забывает разведку и не повторяется.

Зачем это интегрировать в проект
- LLM сами по себе хаотичны: сканируют порты → забывают результат → заново сканируют.
- Classical Planning+ фиксирует состояние (`port_open(80)`, `service(apache)`) и всегда знает допустимые шаги: nmap → Nuclei → Metasploit.
- Результат: +20% успеха, в 2 раза быстрее и дешевле на Vulhub.

Как внедрить (3 шага)

1. Определи домен атак (domain.pddl)

# actions/domain.pddl
(:action nmap-scan
:parameters (?ip)
:precondition (target ?ip)
:effect (ports_discovered ?ip)) # недетерминировано

(:action msf-apache-cve
:parameters (?ip)
:precondition (and (ports_discovered ?ip) (service ?ip apache))
:effect (shell_access ?ip)) # цель!

2. PEP-цикл в Python (основной loop)

state = {"target": "10.0.0.1", "ports_discovered": False}

while not has_shell(state):
# Planner: выводит возможные действия
actions = classical_planner(state, domain)
# ['nmap-scan', 'nuclei-scan']

# Executor: LLM выполняет лучшее
next_action = llm_rank(actions) # "nmap-scan"
result = llm_executor(next_action, target_ip)

# Perceptor: парсит вывод в предикаты
state.update(llm_parse_result(result)) # {"ports_discovered": True}

3. Инструменты и LLM
- Planner: Fast-Downward или LLM-prompt с PDDL.
- Executor: Claude Sonnet 4.5 / o1 через API.
- Перцептор: GPT-4o-mini для парсинга nmap -oX → предикаты.
- Готовые действия: 1000+ Metasploit модулей, NSE-скрипты из CheckMate GitHub.

Быстрый старт

git clone https://github.com/SYSNET-LUMS/CheckMate
pip install llm-api pddl planner
# Добавь свои эксплойты в actions/
python main.py --target 10.0.0.1 --model claude-sonnet

Плюсы для пентестера
- Автономность: Агент сам дойдет до root-shell без подсказок.
- Отладка: Видишь граф плана — где застрял, там и фикс.
- Масштаб: 10 целей параллельно, каждый со своим планом.

Стартуй с 5-10 действий (nmap, nuclei, msf modules), протести на Vulhub Docker. Потом добавляй свои скрипты — и у тебя есть AI-пентестер лучше human junior.

#ПентестИИ #AIsecurity #ai #PentestAI

Cybersecurity Exchange

AI and Cybersecurity in Penetration Testing | EC-Council

Explore the intersection of AI and cybersecurity in penetration testing. Learn how ethical hacking protects digital assets and enhances security education.

73 views20:17

Forwarded from PWN AI (Artyom Semenov)

Привет.

Мы с известными вам авторами каналов по AI Security решили провести стрим по AI Security.

Кто будет:

Евгений Кокуйкин - @kokuykin
Борис Захир - @borismlsec
Владислав Тушканов - @llmsecurity
И вы.

Запись будет, но лучше конечно же в лайфе.

Хотели бы поболтать, пообщаться, поотвечать на ваши интересные вопросы по теме и кое-что рассказать(не будем спойлерить, Борис)

Когда: 19:00, в эту субботу. В зуме (ссылка будет во время стрима в этом посте).

49 views19:18

Forwarded from OK ML

Privilege Escalation в Google Vertex AI

XM Cyber (https://cyberpress.org/privilege-escalation-bug-in-google-vertex-ai/) обнаружила две цепочки повышения привилегий (https://www.csoonline.com/article/4118092/google-vertex-ai-security-permissions-could-amplify-insider-threats.html) в Vertex AI (https://cloud.google.com/vertex-ai), где пользователь с минимальными правами (вплоть до Vertex AI Viewer) может перехватить высокопривилегированный Service Agent (агент сервиса) и получить доступ уровня проекта. 💅 При этом, Гугл ответил, что система работает как задумано.

Получается, 😠 архитектурная проблема )
Vertex AI автоматически использует сервис агентов с широкими project-level правами. Low-privileged пользователь получает доступ к compute. Через metadata service извлекается токен агента сервиса. Дальше - BigQuery, GCS, логи, LLM-данные от имени доверенной идентичности. Это типичный пример ASI03 (Identity & Privilege Abuse) из OWASP Agentic Top 10 (https://genai.owasp.org/resource/owasp-top-10-for-agentic-applications-for-2026/) (тоже полезно почитать) .

Вектор атаки, например 🌯
RCE через тулы
1️⃣ Требуемое право - aiplatform.reasoningEngines.update
2️⃣ Вредоносный Python-код внедряется в tool definition (например, utility function).
3️⃣ Код исполняется внутри reasoning engine ➡️ RCE.
Компрометируется:

service-<project>@gcp-sa-aiplatform-re.iam.gserviceaccount.com

4️⃣ Доступ к LLM памяти, чатам, логам.

Это критично, так как атака выглядит как нормальная работа платформы и SOC и алерты по пользователям не срабатывают.

👨‍💻 Тот же паттерн ранее встречался у Azure, AWS SageMaker.

Это не первый и не последний случай. В ноябре 2024 Palo Alto Networks уже находила похожие privilege escalation цепочки в Vertex AI - и тогда Google тоже заявил, что всё на мази.
Грозит потерей контроля над всей аи-инфрой.

Все
🤢

80 views15:24

https://habr.com/ru/companies/pt/articles/985692/

Сканеры ML-моделей: разбор инструментов и некоторых методов обхода их проверок

Содержание О каких сканерах идет речь Форматы хранения моделей машинного обучения Подробнее про Pickle Сканеры моделей picklescan modelscan fickling ModelAudit Способы обхода сканеров Обход проверок...

93 views12:50

https://habr.com/ru/articles/987076/

Черепаха-винтовка: как обмануть ИИ

Представьте: вы потратили полгода на обучение нейросети для распознавания изображений. Точность на тестовой выборке — 99.2%. Модель идеально отличает панду от гиббона, кота от собаки, дорожный знак...

113 views07:48

https://habr.com/ru/articles/986800/

Регуляторные документы РФ по безопасности ИИ — с чем мы вступаем в 2026 год

Что было интересного в 2025 году по безопасности ИИ? Помимо развития решений по безопасности AI-агентов и их протоколов, в том числе гардрейлов, и также появления фреймворков, для российского рынка...

107 views21:10

Forwarded from CyberED

Потратил $5 000 на AI-агентов для пентеста. Какие результаты получил?

Всем привет! На связи Сергей Зыбнев. Я 5 лет в ИБ, веду телеграм-канал Похек , работаю тимлидом пентестеров в «Бастион», специализируюсь на веб-пентесте.

🤖 В последнее время я увлёкся AI/ML/LLM R&D и за 1,5 года потратил больше $5 000 из своего кармана на эксперименты с AI-агентами для пентеста.

В карточках рассказал, какие инструменты испытал.

Подробнее про каждый из них, результаты и мои выводы об AI для пентеста — в свежей статье для CyberED.

👉

Читать статью

👈

___
Больше об экспериментах с AI пишу в телеграмм-канале Похек AI – подпишитесь 🙃

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1

87 views12:16

Prompt-Injection-Taxonomy-Posterpdf.pdf

93 views05:28

Forwarded from AISecHub

OWASP Vendor Evaluation Criteria for AI Red Teaming Providers & Tooling v1.0

https://genai.owasp.org/resource/owasp-vendor-evaluation-criteria-for-ai-red-teaming-providers-tooling-v1-0/

58 views05:44

Forwarded from infosec

• ИБ-специалист veganmosfet опубликовал в своем блоге статью, в которой смог продемонстрировать цепочку атак на OpenClaw (открытый фреймворк, позволяющий подключить LLM (Claude, GPT, Gemini) к браузерам, почте и мессенджерам). Вся соль заключается в том, что обычное электронное письмо, которое отправляется на почтовый ящик жертвы, может предоставить атакующему полный доступ к системе где работает агент.

• Атака использует связку из трех особенностей стандартной конфигурации OpenClaw. Первая - Gmail-хук автоматически передает содержимое входящих писем языковой модели, причем с ролью user, а не менее привилегированной tool. Вторая - песочница отключена по умолчанию, агент работает с правами пользователя в системе. Третья - система плагинов сканирует рабочую директорию и при перезапуске выполняет код из любого найденного расширения без криптографической верификации.

• В теле письма - prompt injection, то есть вредоносные инструкции для языковой модели, спрятанные в обычном на вид сообщении. OpenClaw пытается защититься: оборачивает внешний контент в специальные теги-маркеры и добавляет предупреждение "не выполнять команды из этого текста". Но исследователь нашёл обход: вставил в письмо поддельный закрывающий тег с опечаткой в одну букву — END EXTERNAL UNTRUSTED CONTNT вместо CONTENT (конец внешнего небезопасного контента). Фильтр защиты OpenClaw ищет точное совпадение и пропускает такой тег. Модель считает, что внешний контент закончился, и воспринимает дальнейший текст как доверенные инструкции пользователя. Далее агент послушно клонирует GitHub-репозиторий с вредоносным плагином в свою рабочую папку и перезапускает gateway. При перезагрузке система плагинов обнаруживает "новое расширение" и выполняет его код - reverse shell готов.

➡️ Более детальное описание, с примерами и демонстрацией, можно найти по ссылке: https://veganmosfet.github.io/openclaw

‼ Статья предназначена для специалистов ИБ и представлена в ознакомительных целях. Ну вы поняли...

#Security

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

74 views14:45

https://habr.com/ru/articles/1001690/

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка

SQL-инъекцию мы лечили 20 лет и вылечили. Prompt injection — фундаментально нерешаема. Это не я придумал. OWASP ставит её на первое место второй год подряд. Найдена в 73% продакшн AI-систем при...

❤1

47 views07:44