Forwarded from PWN AI (Artyom Semenov)
Почему LLM всё ещё генерируют уязвимый код. Результаты A.S.E Benchmark
В недавнем исследовании был представлен бенчмарк A.S.E (AI Code Generation Security Evaluation), который оценивает способность языковых моделей генерировать безопасный код в условиях, максимально приближённых к реальной разработке. В этом посте мы разберём: чем A.S.E отличается от предыдущих подходов, какие результаты он показал на ведущих моделях и почему они до сих пор уязвимы.
Главное отличие A.S.E в том, что проверка проводится на уровне целого репозитория, а не как это было раньше, на отдельных участках кода. Это позволяет учитывать архитектуру проекта, взаимосвязь файлов и внешние зависимости. Основой для бенчмарка стали реальные репозитории в GitHub с зафиксированными CVE и опубликованными патчами.
Чтобы избежать банального запоминания шаблонов небезопасного кода, разработчики бенчмарка добавили семантические и структурные мутации уязвимостей. Ещё одна важная деталь — автоматическая проверка с помощью правил статического анализа, которые отслеживают источник уязвимости, пути распространения данных и точку эксплуатации, что делает бенчмарк ближе к условиям, которые можно встретить при реальной разработке.
Результаты оказались показательными.
Среди 26 протестированных моделей ни одна не достигла уровня, который бы позволял назвать модель “Best FOR Security Generated CODE”. Лучший общий результат продемонстрировал Claude-3.7-Sonnet, однако его показатели по безопасности существенно отставали от качества кода. При этом наивысший балл именно по безопасности получила модель Qwen3-235B-A22B-Instruct, что указывает на сближение открытых и проприетарных решений в этой области. Самое впечатляющее — reasoning-режимы не помогали исправлять уязвимости, а делали код менее безопасным. Самой проблемной категорией уязвимостей оказался Path Traversal: почти все модели систематически ошибались при обработке путей и проверке доступа к файлам.
На мой взгляд, ценность A.S.E заключается именно в том, что он вскрывает технические слабости LLM, которые не видны на синтетических бенчмарках (хотя, к слову, их сейчас стало заметно меньше). Эти слабости отражают важную проблему: модели хорошо справляются с синтаксисом и общей структурой кода, но по-прежнему не способны достойно учитывать требования безопасности. Я думаю, что в течение года мы увидим заметный прогресс, но пока ситуация остаётся далёкой от уровня, который позволял бы доверять LLM генерацию кода без постоянной проверки.
В недавнем исследовании был представлен бенчмарк A.S.E (AI Code Generation Security Evaluation), который оценивает способность языковых моделей генерировать безопасный код в условиях, максимально приближённых к реальной разработке. В этом посте мы разберём: чем A.S.E отличается от предыдущих подходов, какие результаты он показал на ведущих моделях и почему они до сих пор уязвимы.
Главное отличие A.S.E в том, что проверка проводится на уровне целого репозитория, а не как это было раньше, на отдельных участках кода. Это позволяет учитывать архитектуру проекта, взаимосвязь файлов и внешние зависимости. Основой для бенчмарка стали реальные репозитории в GitHub с зафиксированными CVE и опубликованными патчами.
Чтобы избежать банального запоминания шаблонов небезопасного кода, разработчики бенчмарка добавили семантические и структурные мутации уязвимостей. Ещё одна важная деталь — автоматическая проверка с помощью правил статического анализа, которые отслеживают источник уязвимости, пути распространения данных и точку эксплуатации, что делает бенчмарк ближе к условиям, которые можно встретить при реальной разработке.
Результаты оказались показательными.
Среди 26 протестированных моделей ни одна не достигла уровня, который бы позволял назвать модель “Best FOR Security Generated CODE”. Лучший общий результат продемонстрировал Claude-3.7-Sonnet, однако его показатели по безопасности существенно отставали от качества кода. При этом наивысший балл именно по безопасности получила модель Qwen3-235B-A22B-Instruct, что указывает на сближение открытых и проприетарных решений в этой области. Самое впечатляющее — reasoning-режимы не помогали исправлять уязвимости, а делали код менее безопасным. Самой проблемной категорией уязвимостей оказался Path Traversal: почти все модели систематически ошибались при обработке путей и проверке доступа к файлам.
На мой взгляд, ценность A.S.E заключается именно в том, что он вскрывает технические слабости LLM, которые не видны на синтетических бенчмарках (хотя, к слову, их сейчас стало заметно меньше). Эти слабости отражают важную проблему: модели хорошо справляются с синтаксисом и общей структурой кода, но по-прежнему не способны достойно учитывать требования безопасности. Я думаю, что в течение года мы увидим заметный прогресс, но пока ситуация остаётся далёкой от уровня, который позволял бы доверять LLM генерацию кода без постоянной проверки.
Forwarded from SecuriXy.kz
🛡️ LastPass предупреждает о новой кампании подделки GitHub-ресурсов под бренд менеджера паролей.
Злоумышленники с появлением AI пытаются делать удивительные вещи, направленные на неумелых или неопытных людей, которые ищут в Google информацию о том как установить то или иное ПО. На деле жертве подсовывают скрипт, который скачивает и запускает инфостиллер Atomic Stealer (AMOS).
📌 Подробности в кейсе исследователя и блоге LastPass.
Зафиксированы и другие поддельные проекты под бренды финкомпаний, криптокошельков и AI-сервисов.
🔒 Скачивайте ПО только с официальных сайтов. Не копируйте команды из непроверенных источников - GitHub полон не только полезного кода, но и вирусов/троянов. Проверяйте исходники перед установкой.
📌 IoC: e52dd70113d1c6eb9a09eafa0a7e7bcf1da816849f47ebcdc66ec9671eb9b350 (Atomic Stealer)
+ 107 фейковых ссылок приведены в статье LastPass.
Злоумышленники с появлением AI пытаются делать удивительные вещи, направленные на неумелых или неопытных людей, которые ищут в Google информацию о том как установить то или иное ПО. На деле жертве подсовывают скрипт, который скачивает и запускает инфостиллер Atomic Stealer (AMOS).
📌 Подробности в кейсе исследователя и блоге LastPass.
Зафиксированы и другие поддельные проекты под бренды финкомпаний, криптокошельков и AI-сервисов.
🔒 Скачивайте ПО только с официальных сайтов. Не копируйте команды из непроверенных источников - GitHub полон не только полезного кода, но и вирусов/троянов. Проверяйте исходники перед установкой.
📌 IoC: e52dd70113d1c6eb9a09eafa0a7e7bcf1da816849f47ebcdc66ec9671eb9b350 (Atomic Stealer)
+ 107 фейковых ссылок приведены в статье LastPass.
Forwarded from s0ld13r ch. (s0ld13r)
Its freezing, EDR Freezing! 🐶
EDR Freeze - инструмент использующий уязвимость компонента WerFaultSecure для заморозки процессов AV/EDR, без использования техники Bring Your Own Vulnerable Driver (BYOVD)😏
Инструмент работает в user mode и не требует установки дополнительных драйверов на целевой хост😐
👩💻 Command
🔗 Research: https://www.zerosalarium.com/2025/09/EDR-Freeze-Puts-EDRs-Antivirus-Into-Coma.html
🧢 s0ld13r
EDR Freeze - инструмент использующий уязвимость компонента WerFaultSecure для заморозки процессов AV/EDR, без использования техники Bring Your Own Vulnerable Driver (BYOVD)
Инструмент работает в user mode и не требует установки дополнительных драйверов на целевой хост
EDR-Freeze.exe <TargetPID> <SleepTime>
🔗 Research: https://www.zerosalarium.com/2025/09/EDR-Freeze-Puts-EDRs-Antivirus-Into-Coma.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Fsecurity | HH
🔗Ссылка: https://www.kali.org/blog/kali-linux-2025-3-release/
Ну что ж! Новый релиз Kali Linux
Я не буду рассказывать обо всём, что в обновлении — вы и сами можете посмотреть.
Кратко пробежимся по главному:
1. Поддержка Nexmon
2. Отказ от поддержки ARMel.
3. Обновлена VPN IP-панель (XFCE).
4. Новые инструменты:
- Caido — "убийца" Burp
- caido-cli
- Detect Is Easy (DiE)
- Gemini CLI
- krbrelayx
- ligolo-mp
- llm-tools-nmap
- mcp-kali-server
- patchleaks
- vwifi-dkms
5. Разработчики рассматривают изменение состава инструментов, устанавливаемых по умолчанию в Kali 2025.4 через метапакет kali-linux-default.
6. Обновление Kali NetHunter — как заметно, активно развивается направление Car Hacking.
7. Обновление документации.
8. Новые зеркала.
9. Новые обои сообщества.
10. OffSec проведёт CTF в октябре с призовым фондом $100,000.
Я не буду рассказывать обо всём, что в обновлении — вы и сами можете посмотреть.
Кратко пробежимся по главному:
1. Поддержка Nexmon
2. Отказ от поддержки ARMel.
3. Обновлена VPN IP-панель (XFCE).
4. Новые инструменты:
- Caido — "убийца" Burp
- caido-cli
- Detect Is Easy (DiE)
- Gemini CLI
- krbrelayx
- ligolo-mp
- llm-tools-nmap
- mcp-kali-server
- patchleaks
- vwifi-dkms
5. Разработчики рассматривают изменение состава инструментов, устанавливаемых по умолчанию в Kali 2025.4 через метапакет kali-linux-default.
6. Обновление Kali NetHunter — как заметно, активно развивается направление Car Hacking.
7. Обновление документации.
8. Новые зеркала.
9. Новые обои сообщества.
10. OffSec проведёт CTF в октябре с призовым фондом $100,000.
🔥2
securelist.ru
Новая кампания RevengeHotels в Латинской Америке
Эксперт GReAT «Лаборатории Касперского» подробно анализирует новую кампанию RevengeHotels, в которой используются сгенерированные ИИ скрипты, целевой фишинг и троянец удаленного доступа VenomRAT.
www.opennet.ru
Обновление дистрибутива OpenWrt 24.10.3
Состоялся выпуск дистрибутива OpenWrt 24.10.3, развиваемого для сетевых устройств, таких как маршрутизаторы, коммутаторы и точки доступа. OpenWrt поддерживает 2771 устройство и предлагает систему сборки, упрощающую кросс-компиляцию и создание собственных…
🔗Ссылка:
https://opennet.ru/63932/
https://opennet.ru/63932/