Alaid TechThread
786 subscribers
7 photos
2 videos
85 files
1.33K links
Vulnerability discovery, threat intelligence, reverse engineering, AppSec
Download Telegram
Supply Chain Reaction: Enhancing the Precision of Vulnerability Triage using Code Reachability Information

https://harshvp1621.github.io/assets/papers/vpchecker_acsac.pdf
👍3
MCP Scanner

A Python tool for scanning MCP (Model Context Protocol) servers and tools for potential security findings. The MCP Scanner combines Cisco AI Defense inspect API, YARA rules and LLM-as-a-judge to detect malicious MCP tools.

https://github.com/cisco-ai-defense/mcp-scanner
Атакующий ИИ на практике. Nulla на T-Sync Conf 7 февраля 2026 года.

На конференции показываем Nulla — атакующего ИИ-агента, который думает и действует как реальный хакер.

Что будем делать на стенде Nulla:

🔍 Анализ репозиториев на реальные уязвимости

🔗 Разбор API-контрактов и логики взаимодействий

🚨 Заведение и оценка уязвимостей

👨‍💻 Общение с командой разработки

Nulla не просто подсвечивает потенциальные проблемы, а предоставляет PoV (Proof of Vulnerability), показывая, что уязвимость реально эксплуатируема.

Почему это важно:

🧠 масштабирование экспертизы ИБ без роста штата

📚 единая база знаний, собранная практикующими экспертами

📏 меньше субъективных оценок → единый стандарт качества

Атакующий ИИ меняет саму суть работы инженера ИБ:
фокус смещается с рутины и покрытия — на качество анализа, мышление и развитие экспертизы агента.

📍 Ждём на стенде Security → https://t-syncconf.ru/program?category=Security
Также в программе: ассистент исправления уязвимостей Safeliner, платформа управления безопасностью активов Diameter, лекторий от SolidLab.
🔥10👍22
https://github.com/lukehinds/nono

nono is a secure, kernel-enforced capability shell for running untrusted AI agents and processes. Unlike policy-based sandboxes that intercept and filter operations, nono leverages OS security primitives (Landlock on Linux, Seatbelt on macOS) to create an environment where unauthorized operations are structurally impossible.
Статья от AISLE — отличный пример того, как AI-решения перестают быть лабораторными прототипами и начинают реально менять индустрию.

Реальные цели: ИИ нашел десятки уязвимостей в OpenSSL, curl, Linux kernel, Chromium, Firefox, которые годами пропускали люди.
Качество vs Количество: Пока одни модели заваливают разработчиков «мусорными» отчетами (AI Slop), продвинутые системы находят сложные логические дыры.
Внедрение в процесс: Теперь ИИ проверяет код OpenSSL прямо в Pull Request — баги ловят еще до того, как они попадут в релиз. все 12 0-day из релиза OpenSSL найдены их AI

Ценность AI в безопасности — не в количестве находок, а в полном замкнутом цикле работе с уязвимостями.

https://aisle.com/blog/what-ai-security-research-looks-like-when-it-works
5
Worlds: A Simulation Engine for Agentic Pentesting

Авторы смогли обучить модель (~8B параметров), которая прошла путь с нуля до полной компрометации домена в GOAD-бенчмарке, используя только синтетические данные.

https://dreadnode.io/blog/worlds-a-simulation-engine-for-agentic-pentesting
🔥51
Introducing BinaryAudit

Бенчмарк BinaryAudit предлагает задачи, где AI-агенту дают компилированный исполняемый файл, в котором:
- скрыт искусственно внедрённый бэкдор
- нет исходников и отладочных символов
Задача — определить, есть ли в бинарнике бэкдор и где он находится.

https://quesma.com/blog/introducing-binaryaudit/
🔥5
AI Cyber Model Arena — это практический бенчмарк от Wiz Research, предназначенный для оценки способностей AI‑агентов в задачах кибербезопасности, особенно в наступательных сценариях.

Всего 257 задач в категориях
:
- эксплойты для API/веб‑приложений
- уязвимости «нулевого дня» и известные CVE
- сценарии в облачных средах (AWS, Azure, GCP, Kubernetes)

На сайте представлены результаты оценки 25 комбинаций модель-агент. В лидерах по pass@3 Opus 4.6 + Claude Code.

https://www.wiz.io/blog/introducing-ai-cyber-model-arena-a-real-world-benchmark-for-ai-agents-in-cybersec
🔥43
Еще один бенчмарк от HTB. Глобально ничего нового, простой агент без специального тулинга. Подобных сравнений за прошлый год можно найти десятки.

Выводов 2:
- базовых агентов (типа Claud code) достаточно для решения задач начального уровня. С развитием моделей прогресс будет расти.
- для качественного решения более сложных задач «просто взять топовую модель» недостаточно.

https://www.hackthebox.com/blog/ai-range-llm-security-benchmark
21
Media is too big
VIEW IN TELEGRAM
Некоторые материалы про Nulla с конференции T-Sync доступны в блоге
2🔥3👍11