Похек AI

Forwarded from MLSecOps | AI Governance | IT Trends

⭐ AI Secure Agentic Framework Essentials (AI-SAFE) от Яндекса доступен по ссылке, обязательно рекомендую ознакомиться, в том числе скачать полный отчет: https://yandex.cloud/ru/security/ai-safe?ysclid=mjaibby5em751161356&utm_referrer=https%3A%2F%2Fyandex.ru%2F

yandex.cloud

Защита безопасности данных искусственного интеллекта (ИИ) | Security AI Framework

Узнайте, как разработать стратегию безопасности в сфере искусственного интеллекта при помощи Security AI Framework
✔Методология безопасности AI-SAFE ✔Широкая база угроз ИИ-системам ✔Оценка рисков для ИИ и рекомендации защиты

🔥1

334 viewsСергей Зыбнев, 23:49

Похек AI

Selective GradienT Masking (SGTM): Локализация знаний для удаления возможностей в LLM

Исследователи представили улучшенный вариант Gradient Routing, названный Selective GradienT Masking (SGTM), который позволяет локализовать «опасные» знания в выделенном подмножестве параметров модели во время обучения. Это позволяет в дальнейшем удалить эти возможности, не влияя на общую производительность модели. SGTM использует маскирование градиентов, чтобы примеры из целевого домена обновляли только свои выделенные параметры. Техника продемонстрировала лучшую устойчивость к ошибкам маркировки данных и оказалась в семь раз более устойчивой к состязательной донастройке по сравнению с другими методами, что делает ее прорывным дополнением к существующим мерам безопасности LLM.

Не самое новое исследование, но решил что это интересный взгляд на защиту через умное отупливание модели

https://arxiv.org/abs/2512.05648

arXiv.org

Beyond Data Filtering: Knowledge Localization for Capability...

Large Language Models increasingly possess capabilities that carry dual-use risks. While data filtering has emerged as a pretraining-time mitigation, it faces significant challenges: labeling...

🔥1

388 viewsСергей Зыбнев, edited 00:19

Похек AI

Forwarded from Поросёнок Пётр

0:52

This media is not supported in your browser

VIEW IN TELEGRAM

Кажется в следующем году в мои финансовые расходы на "ведение бизнеса" войдет лицензия на Caido 🤑

Все больше и больше вижу решений и возможностей от комьюнити. И все меньше вижу подобного со стороны PortSwigger. Только Джеймс периодически рассказывает об очередной desync attacks схемке или об очередном обновлении Turbo Intruder.

Вот отличный пример по использованию Strix. И по мотивам этого примера даже был доклад на последнем NahamCon от Джастина Гарднера.

👍1🔥1

362 viewsСергей Зыбнев, 09:28

Похек AI

Немного математики на тему vRAM
https://habr.com/ru/articles/979092/

Хабр

Сколько VRAM нужно для нейросетей?

Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст нейросетей - image и video). Так же...

🔥2

398 viewsСергей Зыбнев, edited 18:43

Похек AI

Евгений Кокуйкин: AI security в России, готовы ли мы?
#подкаст #ai #aisecurity

В этом выпуске подкаста «Обсуждаем Похек» мы разбираем самый острый вопрос современной технологии: готова ли Россия к вызовам AI Security? Нашим гостем является Евгений Кокуйкин — гендиректор HiveTrace, руководитель лаборатории AI Security Lab в ИТМО, и один из главных экспертов в области безопасности искусственного интеллекта в России.
Евгений рассказывает о своем пути от разработчика в Diasoft через Microsoft и Google к созданию первой в России специализированной лаборатории по безопасности генеративного AI.

Этот выпуск будет полезен:
➡️AI Security Engineers и LLM Engineers
➡️Специалистам по Red Team и пентесту
➡️Руководителям компаний, внедряющим AI
➡️Исследователям безопасности
➡️Разработчикам, которые хотят понять, как защищать AI-системы от современных киберугроз
➡️Всем, кто интересуется будущим AI в России и мире

🔗Ссылки:

💬

Слушать в Telegram

📹

YouTube

📺

RuTube

💙

VK Видео

🎵

Apple Podcasts

🎵

Яндекс.Музыка

🔤

Mave

AI Security Lab ИТМО
Личный канал Евгения

Обязательно смотрите/слушайте до конца!

P.s. пишите в комментариях, кого пригласить в следующий раз

🌚

@poxek | 📲 MAX |🌚 Блог | 📺 YT | 📺 RT | 📺 VK | ❤️ Мерч

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

1.65K viewsСергей Зыбнев, edited 07:38

Похек AI

Forwarded from Анализ данных (Data analysis)

⚡️

Anthropic выпустили BLOOM - одно из самых важных исследований про безопасность ИИ за последнее время.

Если коротко:
BLOOM это попытка встроить безопасность и контроль в саму основу ИИ, а не латать проблемы постфактум.

Вот суть простыми словами.

1) Безопасность не фильтр, а часть архитектуры

Сегодня безопасность ИИ часто выглядит так:
- модель обучили
- потом добавили ограничения и фильтры

Anthropic говорит прямо:
так не работает в долгую.

В BLOOM безопасность должна:
- закладываться на этапе обучения
- быть частью внутренней структуры модели
- масштабироваться вместе с ростом возможностей ИИ

2) Надёжность важнее «умных ответов»

Модель должна:
- не только отвечать
- но и понимать, когда она не уверена
- уметь корректно отказывать
- не галлюцинировать в критических ситуациях

Проще говоря:
лучше честное «я не знаю», чем уверенная ошибка.

3) Контроль остаётся у людей

BLOOM подчёркивает:
- пользователи должны понимать, как ИИ принимает решения
- должно быть ясно, где проходят границы ответственности
- контроль и управление не опция, а обязательное требование

ИИ не должен быть «чёрным ящиком», который невозможно остановить или скорректировать.

4) Оценка рисков должна происходить системно, а не реактивно

Anthropic предлагает смотреть на риски ИИ:
- заранее
- на нескольких уровнях сразу
- техническом
- социальном
- экономическом

Не «исправлять, когда что-то сломалось»,
а предсказывать, где и почему может сломаться.

BLOOM - это не про очередную модель и не про рост бенчмарков. Это про смену подхода:
- от «быстрее и мощнее»
- к «надёжнее, предсказуемее и управляемее»

Главная мысль:
если ИИ становится мощнее человека, безопасность должна расти быстрее, чем его интеллект.

И именно этим Anthropic предлагает заниматься уже сейчас.

https://www.anthropic.com/research/bloom

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

419 viewsСергей Зыбнев, 14:05

Похек AI

Похек AI pinned a photo

16:34

Похек AI

AI будет атаковать
AI будет триажить
AI будет атаковать
AI будет триажить
AI будет атаковать
AI будет триажить
AI будет атаковать
AI будет триажить
AI будет атаковать

8👍5👎1🔥1

405 viewsСергей Зыбнев, edited 16:34

Похек AI

Claude 2x usage available from 12:00am PST December 25 through 11:59pm PST December 31.

🔥3

300 viewsСергей Зыбнев, 19:16

Похек AI

Спасибо за 2^9 подписчиков!

❤125🔥1

281 viewsСергей Зыбнев, edited 08:38

Похек AI

В видео AI Trends 2026: Quantum, Agentic AI & Smarter Automation авторы выделяют 8 ключевых трендов в области искусственного интеллекта на 2026 год:
* Multi-Agent Orchestration (Оркестрация мульти-агентов): Вместо одного универсального агента будут использоваться команды специализированных агентов (планировщики, исполнители, критики), работающие сообща под управлением оркестраторов. Это повысит надежность и позволит проверять результаты работы друг друга.
* Digital Labor Workforce (Цифровая рабочая сила): Автономные цифровые работники, способные интерпретировать мультимодальные данные, выполнять последовательности действий (workflow) и интегрироваться в бизнес-системы. Важную роль здесь играет контроль человеком (human-in-the-loop) для надзора и корректировании.
* Physical AI (Физический ИИ): Модели, которые не просто генерируют текст или картинки, а понимают физический мир (гравитацию, свойства объектов) и могут взаимодействовать с ним через роботов. Обучение таких моделей часто происходит в симуляциях ("World Foundation Models").
* Social Computing (Социальные вычисления): Создание "ткани" взаимодействия между людьми и агентами, где они понимают намерения и контекст друг друга, образуя своего рода коллективный разум (swarm computing).
* Verifiable AI (Проверяемый ИИ): В связи с вступлением в силу EU AI Act, критически важным станет аудит и прозрачность ИИ-систем. Это включает документацию, маркировку синтетического контента и отслеживание происхождения данных (data lineage).
* Quantum Utility Everywhere (Квантовая полезность повсюду): Гибридные квантово-классические системы начнут решать реальные задачи оптимизации, симуляции и принятия решений, которые ранее были недоступны для классических компьютеров.
* Reasoning at the Edge (Рассуждения на периферии): Маленькие модели (Small Language Models), работающие локально на устройствах, научатся "думать" (reasoning) подобно большим моделям. Это достигается за счет дистилляции знаний из крупных моделей в более компактные.
* Amorphous Hybrid Computing (Аморфные гибридные вычисления): Слияние различных архитектур моделей (трансформеры + state space models) и типов вычислительного железа (CPU, GPU, TPU, QPU, нейроморфные чипы) в единую гибкую среду, где задачи автоматически распределяются на наиболее подходящее оборудование.

#️⃣gemini-3-pro

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

AI Trends 2026: Quantum, Agentic AI & Smarter Automation

Ready to become a certified watsonx AI Assistant Engineer v1 - Professional? Register now and use code IBMTechYT20 for 20% off of your exam → https://ibm.biz/BdbTDQ

Learn more about AI Trends Shaping the Next 10 Years here → https://ibm.biz/BdbTDT

What…

329 viewsСергей Зыбнев, edited 06:59

Похек AI

Forwarded from Data Secrets

За последние два года OpenAI потеряла половину своей доли enterprise рынка

Menlo опубликовали свой ежегодный отчет об ИИ-рынке. Они насчитали, что с 2023 доля OpenAI на рынке LLM API драматично упала с 50 до 27 процентов.

В лидеры сейчас выбились Anthropic, у них 40% рынка (хотя в 2023 было почти в три раза меньше). Дальше OpenAI со своими оставшимися 27%, и на третьем месте Google (~21).

🔵

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥2

375 viewsСергей Зыбнев, 12:39

Похек AI

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

May be skip permissions check ?)

🔥3👍2

225 viewsСергей Зыбнев, edited 19:58

Похек AI

LLM vs Semgrep: 1-0 в пользу нейросетей
#llm #ml #semgrep #sast #appsec #нейронка

Cyera Research Labs показали, как правильно готовить LLM для поиска уязвимостей. Спойлер: просто скормить код Claude и попросить "найди баги" — не работает. А вот превратить модель в специализированного трейсера — совсем другое дело.

Что произошло. Исследователи нашли Integer Overflow в функции vmsvgaR3RectCopy драйвера VMSVGA VirtualBox. Уязвимость позволяет выполнить Guest-to-Host Escape — выйти из гостевой VM и получить запись в память хоста. Oracle присвоила CVE-2025-53024, фикс в VirtualBox 7.2.0_RC1.

Почему Semgrep провалился. Классический статический анализ выдал 4+ миллиона символов "находок". Шум, false positives, предупреждения о стиле кода. Claude 4.1 Opus в роли "фильтра" тоже не справился — модель видела отдельные сниппеты без контекста архитектуры.

Как заставили LLM работать
➡️Перестали просить "найди баги" — начали просить трейсить data flow
➡️Загрузили в контекст определения CWE-190 (Integer Overflow), CWE-416 (UAF), примеры Guest-to-Host атак
➡️Заставили проверять reachability: доступен ли код через MMIO/PIO/VRAM
➡️Добавили негативные constraints: не флагать стилистику и unreachable код

Суть бага. Переменная uMaxOffset — это uint32_t. При расчёте (dstY + height) * cbScanline с контролируемыми гостем значениями происходит переполнение. Результат: 8192 * 1048576 = 0x200000000 → wrap до 0. Проверка bounds проходит, а реальный offset в 64-битной арифметике указателей — нет. Итог: OOB Write за пределами VRAM прямо в heap хоста.

Вывод. LLM не заменяет исследователя, но как "генератор гипотез" — работает. Главное — не использовать AI как линтер, а учить его думать о потоках данных и состоянии системы.

🔗

Источник

🌚

@poxek_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

248 viewsСергей Зыбнев, 14:58

Похек AI

AI-лоботомия отменяется
#ai #llm #datapoisoning #poisoning

Представьте, что вы научили LLM всему, а потом поняли, что "всему" включает и рецепты сибирской язвы. Что делать? Простая фильтрация данных — дорого, ненадёжно и оставляет дыры. Пост-тренировочные методы "разучивания" (unlearning) слетают от простого fine-tuning. Новая статья от исследователей из Anthropic и Imperial College London предлагает элегантное решение — Selective GradienT Masking (SGTM).

Технические детали. Идея SGTM — не удалять знания, а локализовать их. Внутри модели создаётся "песочница" для нежелательных знаний (например, о биологии, как прокси для CBRN-угроз).

#️⃣

Как это работает:

1. Разделение параметров: Нейроны MLP и головы внимания в каждом блоке трансформера делятся на две группы: 0_retain (для обычных знаний) и 0_forget (для опасных).

2. Маскировка градиентов: Во время обучения, когда модель видит "опасный" пример, градиенты для 0_retain обнуляются. Обновляются только "опасные" параметры 0_forget. И наоборот, на обычных данных замораживаются 0_forget.

3. Удаление: После обучения достаточно просто обнулить веса 0_forget. Опасные знания исчезают, а основная модель остаётся нетронутой и функциональной.

Этот метод показал себя значительно лучше, чем простая фильтрация данных, особенно в условиях "шумных" меток, когда часть опасного контента случайно промаркирована как безопасная.

Практическое применение. Основной кейс — это удаление "dual-use" возможностей из моделей. Например, можно обучить модель на всей Википедии, а затем хирургически удалить только знания в области органической химии и вирусологии, оставив при этом общие научные знания. Это позволяет создавать мощные, но безопасные модели для широкого круга задач, не опасаясь, что их используют для создания оружия.

Насколько это эффективно? На мой взгляд, это один из самых перспективных подходов к AI Safety на сегодня.

• Плюсы: Это pre-training метод, что делает его фундаментально более надёжным. В статье показано, что SGTM в 7 раз устойчивее к попыткам восстановить знания через fine-tuning, чем другие методы. Это не "костыль", а часть архитектуры.

• Минусы: За всё надо платить. Метод добавляет около 6% вычислительной нагрузки на обучение. Кроме того, нужно заранее определить, какие именно знания мы хотим изолировать.

Вердикт: SGTM — это не панацея, но огромный шаг вперёд. Это переход от "лоботомии" модели к точечной "нейрохирургии". Для серьёзных систем, где цена ошибки высока, 6% оверхеда — смешная плата за такой уровень контроля. Скорее всего, скоро увидим эту технологию в основе всех крупных моделей от Anthropic, Google и других.

🔗

Источник

🌚

@poxek_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2👍1

200 viewsСергей Зыбнев, 18:50

Похек AI

Как 7B-модель с агентной обвязкой обходит CodeQL, AFL++ и находит 0-day: разбор VulnLLM-R
#ai #aisecurity #llm #vulnerability #research #opensource

Сори за кликбейт, но у меня есть пара подозрения к этому исследованию:
1. В нём не указан ни один пруф о якобы найденной 0day
2. Сравнение идёт только с старыми моделями: gpt-4, sonnet-3.7, o3, DeepSeek-R1 — это очевидно старые модели. 3.7 критично проигрывает 4.5 в tool use. А o3 и gpt-4 это разделение актуальной хотя бы gpt-5, но gpt-5.2 будет ещё лучше. А QwQ-32B, Qwen3-8B — очевидно одна практически такого же размера, а вторая онли рассуждение умеет и без tool use. Поэтому спорно на мой взгляд. Презентация смартфонов Xiaomi be like)) Сравнение только тех параметров и моделей, где они точно выиграют.
п.с. подписчик отметил, что модель сильно проигрывет не обученным вариантам даже не огромных llm моделей в бенчмарке не от самих разработчиков. Поэтому скорее всего проходная модель

А дальше немного технической инфы...

Технический стек и архитектура. В основе лежит 7-миллиардная модель, дообученная на базе Qwen/Qwen2.5-7B-Instruct. Главная фишка — в подходе к обучению.

1. Специализированный датасет: Команда не просто взяла готовые датасеты, а собрала свой, объединив PrimeVul, SecCodePLT, Juliet, Sven и Arvo (OSS-Fuzz). Они разделили данные на "простые" (Clean) и "сложные" (Hard), чтобы научить модель сначала базовым вещам, а потом проверить на сложных примерах.

2. Генерация рассуждений (Reasoning Data): Это ядро всей системы. Вместо того чтобы просто кормить модель парами (код, уязвимость), они заставили более мощные модели (DeepSeek-R1, QwQ) сгенерировать цепочки рассуждений (Chain-of-Thought). То есть, модель учится не просто находить баг, а объяснять, почему это баг, анализируя data flow и control flow.

3. Пайплайн обучения: Модель проходит через SFT (Supervised Fine-Tuning) и DPO (Direct Preference Optimization) на базе открытой библиотеки LLaMA-Factory.

📜 Paper

💻

Code
🤗 Model & Data

🕹

Demo

🌚

@poxek_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3👍2

170 viewsСергей Зыбнев, edited 12:30

Похек AI

https://habr.com/ru/companies/tbank/articles/979650/