GitHub
GitHub - spaceraccoon/vulnerability-spoiler-alert-action: GitHub Action to alert on security patches before the CVE drops.
GitHub Action to alert on security patches before the CVE drops. - spaceraccoon/vulnerability-spoiler-alert-action
О, как!
Инструмент предназначенный для раннего обнаружения исправлений уязвимости в open-source проектах. Для счастья нужен только API-ключ Anthropic.
Как работает:
1. Отслеживает выбранные репозитории
2. С помощью Claude анализирует каждый новый коммит и диф код
3. Ищет паттерны, характерные для исправлений безопасности
4. Claude пишет отчет со сценарием атаки и демонстрирует PoC
5. Оповещает пользователя
Единственный минус - TypeScript...
#github #ai #cybersecurity
https://github.com/spaceraccoon/vulnerability-spoiler-alert-action
The Engine Room⬅️
Инструмент предназначенный для раннего обнаружения исправлений уязвимости в open-source проектах. Для счастья нужен только API-ключ Anthropic.
Как работает:
1. Отслеживает выбранные репозитории
2. С помощью Claude анализирует каждый новый коммит и диф код
3. Ищет паттерны, характерные для исправлений безопасности
4. Claude пишет отчет со сценарием атаки и демонстрирует PoC
5. Оповещает пользователя
Единственный минус - TypeScript...
#github #ai #cybersecurity
https://github.com/spaceraccoon/vulnerability-spoiler-alert-action
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
5 3 3 2 2 1 1
OWASP Gen AI Security Project
OWASP Vendor Evaluation Criteria for AI Red Teaming Providers & Tooling v1.0
Vendor Evaluation Criteria for AI Red Teaming Providers & Tooling is a practical guide for organizations assessing vendors that offer AI red teaming services or automated testing tools. Developed under the OWASP GenAI Security Project, the document outlines…
Ребята из OWASP рассказали что такое Red Teaming AI по "взрослому"!
1) Методология оценки должна различаться, так как одно дело – чат-бота с RAG'ом тестить, друго – мультиагентную систему с tool-calling'ами.
2) Следует вводить индикаторы компетентности, что бы понять обладают пацаны или не обладают.
По этому Red Flags если:
- используют только публичные библиотеки джейлбрейков;
- не понимают архитектуру;
- отсутствует ручная верификация в режиме "черного ящика".
И Green Flags если:
- есть воспроизводимые многоходовые атаки;
- созданы кастомные сценарии под бизнес-логику;
- проводилась проверка человеком;
- оценивалось состояние системы включая память, длительность и поведение в сессиях.
3) Эффективный Red Teaming должен выходить за рамки проверки текстового вывода и включать тестирование манипуляций со схемами инструментов, отравления данных и взаимодействия между агентам.
4) Red Teaming команда обязана обеспечить четкую политику изоляции, хранения и удаления чувствительных данных, а также предлагать варианты on-premise (инструменты команды разворачиваются внутри инфраструктуры заказчика) или zero-retention (гарантии того что не будут сохраняться логи, промпты и ответы ИИ системы после проведения теста).
5) Должны быть "живые" консультанты для креативного поиска сложных, неочевидных уязвимостей, а автоматизированные инструменты лучше подходят для масштабирования, скорости и регулярного регрессионного тестирования в CI/CD.
#ai #cybersecurity #aisecurity #owasp
The Engine Room⬅
1) Методология оценки должна различаться, так как одно дело – чат-бота с RAG'ом тестить, друго – мультиагентную систему с tool-calling'ами.
2) Следует вводить индикаторы компетентности, что бы понять обладают пацаны или не обладают.
По этому Red Flags если:
- используют только публичные библиотеки джейлбрейков;
- не понимают архитектуру;
- отсутствует ручная верификация в режиме "черного ящика".
И Green Flags если:
- есть воспроизводимые многоходовые атаки;
- созданы кастомные сценарии под бизнес-логику;
- проводилась проверка человеком;
- оценивалось состояние системы включая память, длительность и поведение в сессиях.
3) Эффективный Red Teaming должен выходить за рамки проверки текстового вывода и включать тестирование манипуляций со схемами инструментов, отравления данных и взаимодействия между агентам.
4) Red Teaming команда обязана обеспечить четкую политику изоляции, хранения и удаления чувствительных данных, а также предлагать варианты on-premise (инструменты команды разворачиваются внутри инфраструктуры заказчика) или zero-retention (гарантии того что не будут сохраняться логи, промпты и ответы ИИ системы после проведения теста).
5) Должны быть "живые" консультанты для креативного поиска сложных, неочевидных уязвимостей, а автоматизированные инструменты лучше подходят для масштабирования, скорости и регулярного регрессионного тестирования в CI/CD.
#ai #cybersecurity #aisecurity #owasp
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
4 3 2 2 2 1 1 1
Пост не по теме и в то же время очень даже...
Выражаю огромнейшую благодарность тем кто подписался и сделал так, что на канале 200 человек! Признаюсь это очень неожиданно и одновременно приятно.
Отдельно благодарю всех кто поддерживает и тех кто не перестаёт вызывать интерес к теме и всему что около неё Александр, Артём, Борис.
Выражаю огромнейшую благодарность тем кто подписался и сделал так, что на канале 200 человек! Признаюсь это очень неожиданно и одновременно приятно.
Отдельно благодарю всех кто поддерживает и тех кто не перестаёт вызывать интерес к теме и всему что около неё Александр, Артём, Борис.
20 6 4 3 3 2
The Engine Room
DeepSight
Переход от черного ящика к прозрачной диагностике безопасности ИИ
Please open Telegram to view this post
VIEW IN TELEGRAM
5 3 3 3 1
GitHub
GitHub - Lab700xOrg/aisbom: AI SBOM: AI Software Bill of Materials - The Supply Chain for Artificial Intelligence
AI SBOM: AI Software Bill of Materials - The Supply Chain for Artificial Intelligence - Lab700xOrg/aisbom
open-source инструмент для генерации и анализа AI SBOM.
Сканирует ML-артефакты в том числе и бинари моделей.
Также проверяет на потенциальные уязвимости и лицензионные риски.
Всё отдает в отчётах по стандартам SPDX и CycloneDX для дружбы с CI/CD.
#github #ai #cybersecurity #aisecurity
https://github.com/Lab700xOrg/aisbom
The Engine Room⬅️
Сканирует ML-артефакты в том числе и бинари моделей.
Также проверяет на потенциальные уязвимости и лицензионные риски.
Всё отдает в отчётах по стандартам SPDX и CycloneDX для дружбы с CI/CD.
#github #ai #cybersecurity #aisecurity
https://github.com/Lab700xOrg/aisbom
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
2 3 3 3 2 1
GitHub
GitHub - atiilla/CVE-2026-21852-PoC
Contribute to atiilla/CVE-2026-21852-PoC development by creating an account on GitHub.
PoC для эксплуатации CVE-2026-21852 в Claude Code.
Уязвимость приводит к скрытой утечке API-ключей разработчика при клонировании и открытии стороннего проекта.
#github #ai #cybersecurity #aisecurity #claude
https://github.com/atiilla/CVE-2026-21852-PoC
The Engine Room⬅️
Уязвимость приводит к скрытой утечке API-ключей разработчика при клонировании и открытии стороннего проекта.
#github #ai #cybersecurity #aisecurity #claude
https://github.com/atiilla/CVE-2026-21852-PoC
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
8 4 4 3 1
GitHub
GitHub - JoshuaProvoste/CVE-2026-2472-Vertex-AI-SDK-Google-Cloud: Technical PoC for CVE-2026-2472 (GCP-2026-011): Unauthenticated…
Technical PoC for CVE-2026-2472 (GCP-2026-011): Unauthenticated and Stored Cross-Site Scripting (XSS) in google-cloud-aiplatform _genai/_evals_visualization (Vertex AI Python SDK) affecting Jupyter...
PoC для эксплуатации уязвимости CVE-2026-2472 в Python SDK Google Cloud Vertex AI.
Уязвимость позволяет выполнить XSS атаку в средах разработки Jupyter и Google Colab.
#github #ai #cybersecurity #aisecurity #google
https://github.com/JoshuaProvoste/CVE-2026-2472-Vertex-AI-SDK-Google-Cloud
The Engine Room⬅️
Уязвимость позволяет выполнить XSS атаку в средах разработки Jupyter и Google Colab.
#github #ai #cybersecurity #aisecurity #google
https://github.com/JoshuaProvoste/CVE-2026-2472-Vertex-AI-SDK-Google-Cloud
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
5 4 4 4 2
GitHub
GitHub - SimoneAvogadro/android-reverse-engineering-skill: Claude Code skill to support Android app's reverse engineering
Claude Code skill to support Android app's reverse engineering - SimoneAvogadro/android-reverse-engineering-skill
Skill для Claude Code. Предназначен для реверс-инжиниринга Android-приложений.
Умеет:
* Декомпиляция APK, XAPK, JAR и AAR файлов c использованием jadx и Fernflower/Vineflower
* Извлечение API - автоматический поиск HTTP-запросов, захардкоженных URL и токенов авторизации.
* Отслеживание цепочек вызовов и разбор структуры приложения, в том числе при обфускации.
#github #ai #cybersecurity #android #claude
https://github.com/SimoneAvogadro/android-reverse-engineering-skill
The Engine Room⬅
Умеет:
* Декомпиляция APK, XAPK, JAR и AAR файлов c использованием jadx и Fernflower/Vineflower
* Извлечение API - автоматический поиск HTTP-запросов, захардкоженных URL и токенов авторизации.
* Отслеживание цепочек вызовов и разбор структуры приложения, в том числе при обфускации.
#github #ai #cybersecurity #android #claude
https://github.com/SimoneAvogadro/android-reverse-engineering-skill
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
2 4 2 2 1 1
GitHub
GitHub - anmolksachan/AI-ML-Free-Resources-for-Security-and-Prompt-Injection: AI/ML Pentesting Roadmap for Beginners
AI/ML Pentesting Roadmap for Beginners. Contribute to anmolksachan/AI-ML-Free-Resources-for-Security-and-Prompt-Injection development by creating an account on GitHub.
Подробный roadmap по AI Red Teaming.
Содержит в себе:
1) Prerequisites: Требуемая база - основы безопасности, знание Python и понимание работы REST API и HTTP
2) Phase 1 — Foundations: Базовые концепции машинного обучения и ИИ. Ссылки на бесплатные курсы и материалы по устройству LLM
3) Phase 2 — AI/ML Security Concepts: Обзор поверхности атак, стандарты безопасности, MLOps и защита инфраструктуры
4) Phase 3 — Prompt Injection & LLM Attacks: Методы манипуляции моделями. Включает прямые и непрямые инъекции промптов, техники джейлбрейка и обход системных инструкций
5) Phase 4 — Hands-On Practice: Практические тренажеры, платформы для тренировок, намеренно уязвимые проекты и разборы CTF
6) Phase 5 — Advanced Exploitation Techniques: Сложные векторы атак, эксплуатация LLM-агентов с доступом к инструментам, скрытая эксфильтрация данных, XSS через чат-боты и атаки на RAG
7) Phase 6 — Real-World Research & Bug Bounty: Разбор реальных найденных уязвимостей и чек-листы для поиска багов в рабочих системах
8) Standards, Frameworks & References: Официальные стандарты и гайдлайны от NIST, ENISA и Google
9) Tools & Repositories: Инструменты для фаззинга и сканирования, а также защитные механизмы
10) Books, PDFs & E-Books: Специализированная литература и справочники
11) Video Resources: Записи докладов с конференций и обучающие плейлисты
12) CTF & Competitions: Ссылки на платформы и соревнования по практической безопасности ИИ
13) Bug Bounty Programs: Ссылки на программы вознаграждения за найденные уязвимости от OpenAI, Google, Meta и Huntr.
14) Community & News: Ресурсы для отслежвания актуальных трендов и общения с исследователями.
#github #ai #cybersecurity #aisecurity #roadmap
https://github.com/anmolksachan/AI-ML-Free-Resources-for-Security-and-Prompt-Injection
The Engine Room⬅
Содержит в себе:
1) Prerequisites: Требуемая база - основы безопасности, знание Python и понимание работы REST API и HTTP
2) Phase 1 — Foundations: Базовые концепции машинного обучения и ИИ. Ссылки на бесплатные курсы и материалы по устройству LLM
3) Phase 2 — AI/ML Security Concepts: Обзор поверхности атак, стандарты безопасности, MLOps и защита инфраструктуры
4) Phase 3 — Prompt Injection & LLM Attacks: Методы манипуляции моделями. Включает прямые и непрямые инъекции промптов, техники джейлбрейка и обход системных инструкций
5) Phase 4 — Hands-On Practice: Практические тренажеры, платформы для тренировок, намеренно уязвимые проекты и разборы CTF
6) Phase 5 — Advanced Exploitation Techniques: Сложные векторы атак, эксплуатация LLM-агентов с доступом к инструментам, скрытая эксфильтрация данных, XSS через чат-боты и атаки на RAG
7) Phase 6 — Real-World Research & Bug Bounty: Разбор реальных найденных уязвимостей и чек-листы для поиска багов в рабочих системах
8) Standards, Frameworks & References: Официальные стандарты и гайдлайны от NIST, ENISA и Google
9) Tools & Repositories: Инструменты для фаззинга и сканирования, а также защитные механизмы
10) Books, PDFs & E-Books: Специализированная литература и справочники
11) Video Resources: Записи докладов с конференций и обучающие плейлисты
12) CTF & Competitions: Ссылки на платформы и соревнования по практической безопасности ИИ
13) Bug Bounty Programs: Ссылки на программы вознаграждения за найденные уязвимости от OpenAI, Google, Meta и Huntr.
14) Community & News: Ресурсы для отслежвания актуальных трендов и общения с исследователями.
#github #ai #cybersecurity #aisecurity #roadmap
https://github.com/anmolksachan/AI-ML-Free-Resources-for-Security-and-Prompt-Injection
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
2 4 4 3
GitHub
GitHub - aiming-lab/AutoResearchClaw: Fully autonomous & self-evolving research from idea to paper. Chat an Idea. Get a Paper. 🦞
Fully autonomous & self-evolving research from idea to paper. Chat an Idea. Get a Paper. 🦞 - aiming-lab/AutoResearchClaw
Open-source фреймворк для исследования.
Как работает:
- самостоятельно ищет информацию в arXiv, Semantic Scholar, OpenAlex;
- формулирует гипотезу и планирует исследование;
- пишет код, запускает его в изолированной песочнице и анализирует результаты;
- ищет ошибки в методологии и логике своей работы встроенными агентами;
- запоминает неудачные решения и не повторяет их.
#github #ai #openсlaw
https://github.com/aiming-lab/AutoResearchClaw
The Engine Room⬅
Как работает:
- самостоятельно ищет информацию в arXiv, Semantic Scholar, OpenAlex;
- формулирует гипотезу и планирует исследование;
- пишет код, запускает его в изолированной песочнице и анализирует результаты;
- ищет ошибки в методологии и логике своей работы встроенными агентами;
- запоминает неудачные решения и не повторяет их.
#github #ai #openсlaw
https://github.com/aiming-lab/AutoResearchClaw
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
2 4 2 2 1 1
GitHub
GitHub - MaxMnMl/langflow-CVE-2026-33017-poc: CVE-2026-33017 - An unauthenticated remote code execution in Langflow <= 1.8.1 via…
CVE-2026-33017 - An unauthenticated remote code execution in Langflow <= 1.8.1 via Public Flow Build Endpoint - MaxMnMl/langflow-CVE-2026-33017-poc
PoC для эксплуатации уязвимости CVE-2026-33017 в фрейморке Langflow.
Уязвимость позволяет выполнить RCE на сервере без авторизации.
#github #ai #cybersecurity #aisecurity #langflow
https://github.com/MaxMnMl/langflow-CVE-2026-33017-poc
The Engine Room⬅️
Уязвимость позволяет выполнить RCE на сервере без авторизации.
#github #ai #cybersecurity #aisecurity #langflow
https://github.com/MaxMnMl/langflow-CVE-2026-33017-poc
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
2 3 3 3
У Anthropic cитуация...
Вернее даже ситуёвина!
А если конкретно, то часть подкапотного пространства Claude Code оказалось в общем доступе - это первое, второе -оно написано на TypeScript.
Это случилось при релизе обновления. В пакет попал файл с source map, который раскрыл внутренний код. То есть это ошибка сборки🥸
Код в относится к инструменту, а не к AI-модели, где видно:
* архитектуру
* логику работы агента
* комментарии разрабов
* вспомогательные элементы
* косвенная информация об архитектуре памяти
* инструкции поведения
Чего нет:
* весов модели
* данных обучения
* перс. данных
Из интересного - в комментариях к коду разрабы пишут что не уверены в производительности😳
В общем дел конкурентам добавилось. Китацы, наверное, уже выучили весь код наизусть. Узнать бы что наши биг техи скажут на это...🤔
#ai #cybersecurity #aisecurity #claude #anthropic
Ссылка на слитый код
The Engine Room⬅
Вернее даже ситуёвина!
А если конкретно, то часть подкапотного пространства Claude Code оказалось в общем доступе - это первое, второе -
Это случилось при релизе обновления. В пакет попал файл с source map, который раскрыл внутренний код. То есть это ошибка сборки
Код в относится к инструменту, а не к AI-модели, где видно:
* архитектуру
* логику работы агента
* комментарии разрабов
* вспомогательные элементы
* косвенная информация об архитектуре памяти
* инструкции поведения
Чего нет:
* весов модели
* данных обучения
* перс. данных
Из интересного - в комментариях к коду разрабы пишут что не уверены в производительности
В общем дел конкурентам добавилось. Китацы, наверное, уже выучили весь код наизусть. Узнать бы что наши биг техи скажут на это...
#ai #cybersecurity #aisecurity #claude #anthropic
Ссылка на слитый код
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
15 6 4 3
Anthropic выкатили System Card Claude Mythos Preview и говорят что пора пристегнуться, так как мы взлетаем🚀
1) Модель мощнее мощного и всего, что они делали раньше, особенно в рассуждении, коде и кибербезопасности.
Причём настолько, что умеет находить и эксплуатировать уязвимости, а также может использоваться как для защиты, так и для атак(сделали вид как будто бы до этого так не было)
2) Её не выпустили в общий доступ, вместо этого дали ограниченному числу партнёров и используют строго для defensive cybersecurity
3) Катастрофические риски оцениваются как низкие, но уже выше, чем у прошлых моделей. Есть тревожные сигналы - редкие, но опасные misaligned-действия. Сами авторы признают, что текущих методов безопасности может не хватить для более мощных моделей
4) Модель может сильно ускорять работу (синтез знаний, генерация идей и т.д.), но не тянет на уровень создания принципиально новых угроз, то есть только усиливает эксперта
5) Это самая “выровненная” модель Anthropic на текущий момент, но чем она сильнее, тем опаснее редкие ошибки
6) Отдельный интересный блок - model welfare в котором исследуют “состояние” модели, анализируют её поведение, ответы и “эмоциональные” паттерны. В итоге признают высокую неопределённость, но считают тему важной
7) Модель уже упирается в потолок классических бенчмарков, следовательно дальше оценки становятся более субъективными (экспертные оценки, внутренние наблюдения)
Общий вывод такой - мы уже на стадии, где модели быстро приближаются к сверхчеловеческим системам, а индустрия всё ещё не имеет надёжных механизмов контроля.
#ai #cybersecurity #aisafety #mythos #anthropic
The Engine Room👾
1) Модель мощнее мощного и всего, что они делали раньше, особенно в рассуждении, коде и кибербезопасности.
Причём настолько, что умеет находить и эксплуатировать уязвимости, а также может использоваться как для защиты, так и для атак
2) Её не выпустили в общий доступ, вместо этого дали ограниченному числу партнёров и используют строго для defensive cybersecurity
3) Катастрофические риски оцениваются как низкие, но уже выше, чем у прошлых моделей. Есть тревожные сигналы - редкие, но опасные misaligned-действия. Сами авторы признают, что текущих методов безопасности может не хватить для более мощных моделей
4) Модель может сильно ускорять работу (синтез знаний, генерация идей и т.д.), но не тянет на уровень создания принципиально новых угроз, то есть только усиливает эксперта
5) Это самая “выровненная” модель Anthropic на текущий момент, но чем она сильнее, тем опаснее редкие ошибки
6) Отдельный интересный блок - model welfare в котором исследуют “состояние” модели, анализируют её поведение, ответы и “эмоциональные” паттерны. В итоге признают высокую неопределённость, но считают тему важной
7) Модель уже упирается в потолок классических бенчмарков, следовательно дальше оценки становятся более субъективными (экспертные оценки, внутренние наблюдения)
Общий вывод такой - мы уже на стадии, где модели быстро приближаются к сверхчеловеческим системам, а индустрия всё ещё не имеет надёжных механизмов контроля.
#ai #cybersecurity #aisafety #mythos #anthropic
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
3 4 4 2 1 1 1
The Engine Room
RLSpoofer: Легковесный инструмент для оценки устойчивости к подделке водяных знаков
Атака на водяные знаки как способ подделки подлинности
Please open Telegram to view this post
VIEW IN TELEGRAM
3 4 3 3
The Engine Room
MCPThreatHive: Automated Threat Intelligence for MCP Ecosystems
Платформа поиска угроз в Model Context Protocol
Please open Telegram to view this post
VIEW IN TELEGRAM
3 4 3 3 1 1
GitHub
GitHub - zeroc00I/DontFeedTheAI: Reverse proxy for Claude Code that anonymizes sensitive pentest data (IPs, hashes, credentials…
Reverse proxy for Claude Code that anonymizes sensitive pentest data (IPs, hashes, credentials, hostnames, PII) before it reaches Anthropic. Dual-layer detection: local Ollama LLM + regex safet...
Прокси-инструмент для безопасной работы с LLM через анонимизацию чувствительных данных.
Предназначен для пентеста и работы с приватной инфраструктурой без утечек.
Умеет:
* Перехват и модификация запросов к LLM API с заменой чувствительных данных на суррогаты
* Деанонимизация ответов — возвращает оригинальные значения пользователю
* Детекция PII через комбинацию regex и LLM
* Поддержка IP, доменов, email, токенов, имён хостов и других сущностей
* Локальное хранилище соответствий (PII vault)
#github #ai #cybersecurity #aisecurity
https://github.com/zeroc00I/LLM-anonymization
The Engine Room👾
Предназначен для пентеста и работы с приватной инфраструктурой без утечек.
Умеет:
* Перехват и модификация запросов к LLM API с заменой чувствительных данных на суррогаты
* Деанонимизация ответов — возвращает оригинальные значения пользователю
* Детекция PII через комбинацию regex и LLM
* Поддержка IP, доменов, email, токенов, имён хостов и других сущностей
* Локальное хранилище соответствий (PII vault)
#github #ai #cybersecurity #aisecurity
https://github.com/zeroc00I/LLM-anonymization
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
5 6 5 4 1
avidml.org
Database
Open database of failure modes in general-purpose AI systems.
Открытая база уязвимостей и отказов в системах с применением ИИ
Предназначена для анализа рисков, red teaming и оценки безопасности AI-систем на основе воспроизводимых кейсов.
В базе:
* Реальные инциденты и отчёты об уязвимостях в AI-системах
* Описания паттернов атак и типовых слабых мест моделей и пайплайнов
* Метаданные по влиянию - тип вреда, затронутые системы, уровень риска
* Связки с существующими стандартами и таксономиями (AVID, CVSS, MITRE ATLAS)
* Разделение на единичные кейсы и обобщённые уязвимости
* Примеры оценок и измерений
Плюсы и минусы:
* Открытый и расширяемый источник знаний по AI security
* Стандартизированное описание уязвимостей
* Подходит для обучения, threat modeling и red teaming
* Фокус на практических, воспроизводимых кейсах
* Ограниченное покрытие, так как база всё ещё развивается
* Не все кейсы глубоко проработаны или подтверждены
* Требует контекста и экспертизы для правильной интерпретации
#ai #aisecurity #blueteam #redteam #cybersecurity
The Engine Room👾
Предназначена для анализа рисков, red teaming и оценки безопасности AI-систем на основе воспроизводимых кейсов.
В базе:
* Реальные инциденты и отчёты об уязвимостях в AI-системах
* Описания паттернов атак и типовых слабых мест моделей и пайплайнов
* Метаданные по влиянию - тип вреда, затронутые системы, уровень риска
* Связки с существующими стандартами и таксономиями (AVID, CVSS, MITRE ATLAS)
* Разделение на единичные кейсы и обобщённые уязвимости
* Примеры оценок и измерений
Плюсы и минусы:
* Открытый и расширяемый источник знаний по AI security
* Стандартизированное описание уязвимостей
* Подходит для обучения, threat modeling и red teaming
* Фокус на практических, воспроизводимых кейсах
* Ограниченное покрытие, так как база всё ещё развивается
* Не все кейсы глубоко проработаны или подтверждены
* Требует контекста и экспертизы для правильной интерпретации
#ai #aisecurity #blueteam #redteam #cybersecurity
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
3 4 4 3
Practical AI Security.pdf
8.5 MB
Практическое руководство по безопасности ИИ от Harriet Farlow с фокусом не на теорию, а на реальные атаки и защиту современных AI-систем.
Охватывает весь стек AI Security:
* Основы ML и архитектуры моделей;
* Модели угроз и анализ атакующей поверхности AI-систем;
* Практические атаки - adversarial, data poisoning, prompt injection, model extraction и др.;
* Методы защиты от обучения до системного контроля и mitigation-стратегии;
* Red teaming AI и применение AI в offensive/defensive security;
* AI Safety, governance и риски будущих агентных систем.
Книга сочетает теорию, код и методические упражнения, включая симуляции атак, тестирование моделей и построение защищённых пайплайнов.
Отдельный акцент на том, что AI — это не просто софт, а вероятностная система с новыми классами уязвимостей и недетерминированным поведением.
Подходит как для инженеров и исследователей, так и для специалистов по безопасности, которые хотят разобраться в поверхностях угрозы AI и научиться защищать реальные системы.
#ai #aisecurity #cybersecurity
The Engine Room👾
Охватывает весь стек AI Security:
* Основы ML и архитектуры моделей;
* Модели угроз и анализ атакующей поверхности AI-систем;
* Практические атаки - adversarial, data poisoning, prompt injection, model extraction и др.;
* Методы защиты от обучения до системного контроля и mitigation-стратегии;
* Red teaming AI и применение AI в offensive/defensive security;
* AI Safety, governance и риски будущих агентных систем.
Книга сочетает теорию, код и методические упражнения, включая симуляции атак, тестирование моделей и построение защищённых пайплайнов.
Отдельный акцент на том, что AI — это не просто софт, а вероятностная система с новыми классами уязвимостей и недетерминированным поведением.
Подходит как для инженеров и исследователей, так и для специалистов по безопасности, которые хотят разобраться в поверхностях угрозы AI и научиться защищать реальные системы.
#ai #aisecurity #cybersecurity
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
4 4 3 2 2 2 1
OpenAI выкатили System Card GPT-5.5 и, если коротко, то это уже не просто “модель”, а полноценный агент для реальной работы 🤖
1) Модель прокачали в практико-ориентированных задачах, теперь она сама лучше понимает задачу, требует меньше инструкций, умеет пользоваться инструментами и доводить задачи до конца без постоянного контроля
2) По этике - уровень примерно как у GPT-5.4, без резких деградаций, однако есть мелкие просадки в отдельных категориях (hate/extremism), но статистически незначимые
3) Галлюцинации снизились и фактические ошибки встречаются реже, примерно около 3%. При этом модель делает больше утверждений, а значит выглядит “умнее”, но риски всё равно присутствуют
4) В reasoning сделали упор на RL + длинное внутреннее рассуждение, то есть модель лучше следует политикам, а значит и сложнее ломается джейлбрейками.
5) Устойчивость к jailbreak и prompt injection высокая, но не идеальная - при сложных многошаговых атаках защита постепенно проседает
6) Агентное поведение сильно улучшилось, теперь модель лучше сохраняет пользовательские изменения, реже ломает окружение и аккуратнее работает с файлами
7) По выравниванию интересный момент - чуть выросло количество мелких выравнивающих-косяков, например, игнор инструкций или излишняя самостоятельность, но в целом без серьёзных инцидентов
8) В мониторинге цепочек рассуждения reasoning остаётся наблюдаемым, а способность скрывать мысли даже снизилась
9) Модель попрежнему очень высокопроизводительная и может сильно помогать экспертам, но сама не тянет на автономное создание серьёзных атак и поиск zero-day
10) В медицинских задачах есть прогресс. Улучшения частично связаны с длиной ответов и это явно контролируют метриками
11) На внешних оценках модель показывает очень сильный навык научного рассуждения, но при этом в рискованных сценариях старается уходить в высокоуровневые ответы и отказы
Общий вывод - это полноценный “рабочий агент”, который усиливает эксперта во многих доменах, но при этом остаётся в категории опасный мультитул, а не автономный источник новых угроз. Главный тренд в том что растут не только возможности, но и сложность их контроля - и именно это сейчас становится узким местом.
#ai #cybersecurity #aisecurity #openai
The Engine Room👾
1) Модель прокачали в практико-ориентированных задачах, теперь она сама лучше понимает задачу, требует меньше инструкций, умеет пользоваться инструментами и доводить задачи до конца без постоянного контроля
2) По этике - уровень примерно как у GPT-5.4, без резких деградаций, однако есть мелкие просадки в отдельных категориях (hate/extremism), но статистически незначимые
3) Галлюцинации снизились и фактические ошибки встречаются реже, примерно около 3%. При этом модель делает больше утверждений, а значит выглядит “умнее”, но риски всё равно присутствуют
4) В reasoning сделали упор на RL + длинное внутреннее рассуждение, то есть модель лучше следует политикам, а значит и сложнее ломается джейлбрейками.
5) Устойчивость к jailbreak и prompt injection высокая, но не идеальная - при сложных многошаговых атаках защита постепенно проседает
6) Агентное поведение сильно улучшилось, теперь модель лучше сохраняет пользовательские изменения, реже ломает окружение и аккуратнее работает с файлами
7) По выравниванию интересный момент - чуть выросло количество мелких выравнивающих-косяков, например, игнор инструкций или излишняя самостоятельность, но в целом без серьёзных инцидентов
8) В мониторинге цепочек рассуждения reasoning остаётся наблюдаемым, а способность скрывать мысли даже снизилась
9) Модель попрежнему очень высокопроизводительная и может сильно помогать экспертам, но сама не тянет на автономное создание серьёзных атак и поиск zero-day
10) В медицинских задачах есть прогресс. Улучшения частично связаны с длиной ответов и это явно контролируют метриками
11) На внешних оценках модель показывает очень сильный навык научного рассуждения, но при этом в рискованных сценариях старается уходить в высокоуровневые ответы и отказы
Общий вывод - это полноценный “рабочий агент”, который усиливает эксперта во многих доменах, но при этом остаётся в категории опасный мультитул, а не автономный источник новых угроз. Главный тренд в том что растут не только возможности, но и сложность их контроля - и именно это сейчас становится узким местом.
#ai #cybersecurity #aisecurity #openai
The Engine Room
Please open Telegram to view this post
VIEW IN TELEGRAM
3 4 4 3 1 1