Похек AI
530 subscribers
28 photos
3 videos
9 files
48 links
All materials published on the channel are for educational and informational purposes only.

AI is not second brain, when you don't use your main brain

Чат: @poxek_chat
Основной канал: @poxek
Download Telegram
Selective GradienT Masking (SGTM): Локализация знаний для удаления возможностей в LLM

Исследователи представили улучшенный вариант Gradient Routing, названный Selective GradienT Masking (SGTM), который позволяет локализовать «опасные» знания в выделенном подмножестве параметров модели во время обучения. Это позволяет в дальнейшем удалить эти возможности, не влияя на общую производительность модели. SGTM использует маскирование градиентов, чтобы примеры из целевого домена обновляли только свои выделенные параметры. Техника продемонстрировала лучшую устойчивость к ошибкам маркировки данных и оказалась в семь раз более устойчивой к состязательной донастройке по сравнению с другими методами, что делает ее прорывным дополнением к существующим мерам безопасности LLM.

Не самое новое исследование, но решил что это интересный взгляд на защиту через умное отупливание модели

https://arxiv.org/abs/2512.05648
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Кажется в следующем году в мои финансовые расходы на "ведение бизнеса" войдет лицензия на Caido 🤑

Все больше и больше вижу решений и возможностей от комьюнити. И все меньше вижу подобного со стороны PortSwigger. Только Джеймс периодически рассказывает об очередной desync attacks схемке или об очередном обновлении Turbo Intruder.

Вот отличный пример по использованию Strix. И по мотивам этого примера даже был доклад на последнем NahamCon от Джастина Гарднера.
👍1🔥1
Евгений Кокуйкин: AI security в России, готовы ли мы?
#подкаст #ai #aisecurity

В этом выпуске подкаста «Обсуждаем Похек» мы разбираем самый острый вопрос современной технологии: готова ли Россия к вызовам AI Security? Нашим гостем является Евгений Кокуйкин — гендиректор HiveTrace, руководитель лаборатории AI Security Lab в ИТМО, и один из главных экспертов в области безопасности искусственного интеллекта в России.
Евгений рассказывает о своем пути от разработчика в Diasoft через Microsoft и Google к созданию первой в России специализированной лаборатории по безопасности генеративного AI.

Этот выпуск будет полезен:
➡️AI Security Engineers и LLM Engineers
➡️Специалистам по Red Team и пентесту
➡️Руководителям компаний, внедряющим AI
➡️Исследователям безопасности
➡️Разработчикам, которые хотят понять, как защищать AI-системы от современных киберугроз
➡️Всем, кто интересуется будущим AI в России и мире

🔗Ссылки:
💬 Слушать в Telegram
📹 YouTube
📺 RuTube
💙 VK Видео
🎵 Apple Podcasts
🎵 Яндекс.Музыка
🔤 Mave

AI Security Lab ИТМО
Личный канал Евгения

Обязательно смотрите/слушайте до конца!

P.s. пишите в комментариях, кого пригласить в следующий раз

🌚 @poxek | 📲 MAX |🌚 Блог | 📺 YT | 📺 RT | 📺 VK | ❤️ Мерч
Please open Telegram to view this post
VIEW IN TELEGRAM
4
⚡️ Anthropic выпустили BLOOM - одно из самых важных исследований про безопасность ИИ за последнее время.

Если коротко:
BLOOM это попытка встроить безопасность и контроль в саму основу ИИ, а не латать проблемы постфактум.

Вот суть простыми словами.

1) Безопасность не фильтр, а часть архитектуры

Сегодня безопасность ИИ часто выглядит так:
- модель обучили
- потом добавили ограничения и фильтры

Anthropic говорит прямо:
так не работает в долгую.

В BLOOM безопасность должна:
- закладываться на этапе обучения
- быть частью внутренней структуры модели
- масштабироваться вместе с ростом возможностей ИИ

2) Надёжность важнее «умных ответов»

Модель должна:
- не только отвечать
- но и понимать, когда она не уверена
- уметь корректно отказывать
- не галлюцинировать в критических ситуациях

Проще говоря:
лучше честное «я не знаю», чем уверенная ошибка.

3) Контроль остаётся у людей

BLOOM подчёркивает:
- пользователи должны понимать, как ИИ принимает решения
- должно быть ясно, где проходят границы ответственности
- контроль и управление не опция, а обязательное требование

ИИ не должен быть «чёрным ящиком», который невозможно остановить или скорректировать.

4) Оценка рисков должна происходить системно, а не реактивно


Anthropic предлагает смотреть на риски ИИ:
- заранее
- на нескольких уровнях сразу
- техническом
- социальном
- экономическом

Не «исправлять, когда что-то сломалось»,
а предсказывать, где и почему может сломаться.

BLOOM - это не про очередную модель и не про рост бенчмарков. Это про смену подхода:
- от «быстрее и мощнее»
- к «надёжнее, предсказуемее и управляемее»

Главная мысль:
если ИИ становится мощнее человека, безопасность должна расти быстрее, чем его интеллект.

И именно этим Anthropic предлагает заниматься уже сейчас.

https://www.anthropic.com/research/bloom
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
AI будет атаковать
AI будет триажить
AI будет атаковать
AI будет триажить
AI будет атаковать
AI будет триажить
AI будет атаковать
AI будет триажить
AI будет атаковать
8👍5👎1🔥1
Claude 2x usage available from 12:00am PST December 25 through 11:59pm PST December 31.
🔥3
Спасибо за 2^9 подписчиков!
125🔥1
В видео AI Trends 2026: Quantum, Agentic AI & Smarter Automation авторы выделяют 8 ключевых трендов в области искусственного интеллекта на 2026 год:
* Multi-Agent Orchestration (Оркестрация мульти-агентов): Вместо одного универсального агента будут использоваться команды специализированных агентов (планировщики, исполнители, критики), работающие сообща под управлением оркестраторов. Это повысит надежность и позволит проверять результаты работы друг друга.
* Digital Labor Workforce (Цифровая рабочая сила): Автономные цифровые работники, способные интерпретировать мультимодальные данные, выполнять последовательности действий (workflow) и интегрироваться в бизнес-системы. Важную роль здесь играет контроль человеком (human-in-the-loop) для надзора и корректировании.
* Physical AI (Физический ИИ): Модели, которые не просто генерируют текст или картинки, а понимают физический мир (гравитацию, свойства объектов) и могут взаимодействовать с ним через роботов. Обучение таких моделей часто происходит в симуляциях ("World Foundation Models").
* Social Computing (Социальные вычисления): Создание "ткани" взаимодействия между людьми и агентами, где они понимают намерения и контекст друг друга, образуя своего рода коллективный разум (swarm computing).
* Verifiable AI (Проверяемый ИИ): В связи с вступлением в силу EU AI Act, критически важным станет аудит и прозрачность ИИ-систем. Это включает документацию, маркировку синтетического контента и отслеживание происхождения данных (data lineage).
* Quantum Utility Everywhere (Квантовая полезность повсюду): Гибридные квантово-классические системы начнут решать реальные задачи оптимизации, симуляции и принятия решений, которые ранее были недоступны для классических компьютеров.
* Reasoning at the Edge (Рассуждения на периферии): Маленькие модели (Small Language Models), работающие локально на устройствах, научатся "думать" (reasoning) подобно большим моделям. Это достигается за счет дистилляции знаний из крупных моделей в более компактные.
* Amorphous Hybrid Computing (Аморфные гибридные вычисления): Слияние различных архитектур моделей (трансформеры + state space models) и типов вычислительного железа (CPU, GPU, TPU, QPU, нейроморфные чипы) в единую гибкую среду, где задачи автоматически распределяются на наиболее подходящее оборудование.

#️⃣gemini-3-pro
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
За последние два года OpenAI потеряла половину своей доли enterprise рынка

Menlo опубликовали свой ежегодный отчет об ИИ-рынке. Они насчитали, что с 2023 доля OpenAI на рынке LLM API драматично упала с 50 до 27 процентов.

В лидеры сейчас выбились Anthropic, у них 40% рынка (хотя в 2023 было почти в три раза меньше). Дальше OpenAI со своими оставшимися 27%, и на третьем месте Google (~21).

🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
May be skip permissions check ?)
🔥3👍2
LLM vs Semgrep: 1-0 в пользу нейросетей
#llm #ml #semgrep #sast #appsec #нейронка

Cyera Research Labs показали, как правильно готовить LLM для поиска уязвимостей. Спойлер: просто скормить код Claude и попросить "найди баги" — не работает. А вот превратить модель в специализированного трейсера — совсем другое дело.


Что произошло. Исследователи нашли Integer Overflow в функции vmsvgaR3RectCopy драйвера VMSVGA VirtualBox. Уязвимость позволяет выполнить Guest-to-Host Escape — выйти из гостевой VM и получить запись в память хоста. Oracle присвоила CVE-2025-53024, фикс в VirtualBox 7.2.0_RC1.

Почему Semgrep провалился. Классический статический анализ выдал 4+ миллиона символов "находок". Шум, false positives, предупреждения о стиле кода. Claude 4.1 Opus в роли "фильтра" тоже не справился — модель видела отдельные сниппеты без контекста архитектуры.

Как заставили LLM работать
➡️Перестали просить "найди баги" — начали просить трейсить data flow
➡️Загрузили в контекст определения CWE-190 (Integer Overflow), CWE-416 (UAF), примеры Guest-to-Host атак
➡️Заставили проверять reachability: доступен ли код через MMIO/PIO/VRAM
➡️Добавили негативные constraints: не флагать стилистику и unreachable код

Суть бага. Переменная uMaxOffset — это uint32_t. При расчёте (dstY + height) * cbScanline с контролируемыми гостем значениями происходит переполнение. Результат: 8192 * 1048576 = 0x200000000wrap до 0. Проверка bounds проходит, а реальный offset в 64-битной арифметике указателей — нет. Итог: OOB Write за пределами VRAM прямо в heap хоста.

Вывод. LLM не заменяет исследователя, но как "генератор гипотез" — работает. Главное — не использовать AI как линтер, а учить его думать о потоках данных и состоянии системы.

🔗Источник

🌚 @poxek_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
3
AI-лоботомия отменяется
#ai #llm #datapoisoning #poisoning

Представьте, что вы научили LLM всему, а потом поняли, что "всему" включает и рецепты сибирской язвы. Что делать? Простая фильтрация данных — дорого, ненадёжно и оставляет дыры. Пост-тренировочные методы "разучивания" (unlearning) слетают от простого fine-tuning. Новая статья от исследователей из Anthropic и Imperial College London предлагает элегантное решение — Selective GradienT Masking (SGTM).


Технические детали. Идея SGTM — не удалять знания, а локализовать их. Внутри модели создаётся "песочница" для нежелательных знаний (например, о биологии, как прокси для CBRN-угроз).

#️⃣Как это работает:

1. Разделение параметров: Нейроны MLP и головы внимания в каждом блоке трансформера делятся на две группы: 0_retain (для обычных знаний) и 0_forget (для опасных).

2. Маскировка градиентов: Во время обучения, когда модель видит "опасный" пример, градиенты для 0_retain обнуляются. Обновляются только "опасные" параметры 0_forget. И наоборот, на обычных данных замораживаются 0_forget.

3. Удаление: После обучения достаточно просто обнулить веса 0_forget. Опасные знания исчезают, а основная модель остаётся нетронутой и функциональной.

Этот метод показал себя значительно лучше, чем простая фильтрация данных, особенно в условиях "шумных" меток, когда часть опасного контента случайно промаркирована как безопасная.

Практическое применение. Основной кейс — это удаление "dual-use" возможностей из моделей. Например, можно обучить модель на всей Википедии, а затем хирургически удалить только знания в области органической химии и вирусологии, оставив при этом общие научные знания. Это позволяет создавать мощные, но безопасные модели для широкого круга задач, не опасаясь, что их используют для создания оружия.

Насколько это эффективно? На мой взгляд, это один из самых перспективных подходов к AI Safety на сегодня.

Плюсы: Это pre-training метод, что делает его фундаментально более надёжным. В статье показано, что SGTM в 7 раз устойчивее к попыткам восстановить знания через fine-tuning, чем другие методы. Это не "костыль", а часть архитектуры.

Минусы: За всё надо платить. Метод добавляет около 6% вычислительной нагрузки на обучение. Кроме того, нужно заранее определить, какие именно знания мы хотим изолировать.

Вердикт: SGTM — это не панацея, но огромный шаг вперёд. Это переход от "лоботомии" модели к точечной "нейрохирургии". Для серьёзных систем, где цена ошибки высока, 6% оверхеда — смешная плата за такой уровень контроля. Скорее всего, скоро увидим эту технологию в основе всех крупных моделей от Anthropic, Google и других.

🔗Источник

🌚 @poxek_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1
Как 7B-модель с агентной обвязкой обходит CodeQL, AFL++ и находит 0-day: разбор VulnLLM-R
#ai #aisecurity #llm #vulnerability #research #opensource

Сори за кликбейт, но у меня есть пара подозрения к этому исследованию:
1. В нём не указан ни один пруф о якобы найденной 0day
2. Сравнение идёт только с старыми моделями: gpt-4, sonnet-3.7, o3, DeepSeek-R1 — это очевидно старые модели. 3.7 критично проигрывает 4.5 в tool use. А o3 и gpt-4 это разделение актуальной хотя бы gpt-5, но gpt-5.2 будет ещё лучше. А QwQ-32B, Qwen3-8B — очевидно одна практически такого же размера, а вторая онли рассуждение умеет и без tool use. Поэтому спорно на мой взгляд. Презентация смартфонов Xiaomi be like)) Сравнение только тех параметров и моделей, где они точно выиграют.
п.с. подписчик отметил, что модель сильно проигрывет не обученным вариантам даже не огромных llm моделей в бенчмарке не от самих разработчиков. Поэтому скорее всего проходная модель


А дальше немного технической инфы...

Технический стек и архитектура. В основе лежит 7-миллиардная модель, дообученная на базе Qwen/Qwen2.5-7B-Instruct. Главная фишка — в подходе к обучению.

1. Специализированный датасет: Команда не просто взяла готовые датасеты, а собрала свой, объединив PrimeVul, SecCodePLT, Juliet, Sven и Arvo (OSS-Fuzz). Они разделили данные на "простые" (Clean) и "сложные" (Hard), чтобы научить модель сначала базовым вещам, а потом проверить на сложных примерах.

2. Генерация рассуждений (Reasoning Data): Это ядро всей системы. Вместо того чтобы просто кормить модель парами (код, уязвимость), они заставили более мощные модели (DeepSeek-R1, QwQ) сгенерировать цепочки рассуждений (Chain-of-Thought). То есть, модель учится не просто находить баг, а объяснять, почему это баг, анализируя data flow и control flow.

3. Пайплайн обучения: Модель проходит через SFT (Supervised Fine-Tuning) и DPO (Direct Preference Optimization) на базе открытой библиотеки LLaMA-Factory.

📜 Paper
💻 Code
🤗 Model & Data
🕹 Demo

🌚 @poxek_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍2