VP Cybersecurity Brief

Forwarded from Dealer.AI

Модели одного семейства наследуют поведение даже если учились на очищенных текстах учителя.

😱

Продолжаем тему за bias моделей относительно оценки самой себя. Взгляд теперь у нас с боку.

В исследовании ребятки обнаружили, что если учить модель специально какому-то хорошему или нет поведению (там был пример сов и вредоносного кода), но при этом такой моделькой генерить безопасный текст, с фильтрацией поведения как по предпочтении, так и девиантного, то обученные модели ученики на таких "чистых" текстах всеравно приобретают скрытое поведение учителя. Без прямой дистилляции векторов модели, пробитов/логитов и пр. При этом, данный артефакт проявляется в подавляющем большинстве только в моделях одного семейства, т.е. учитель и ученик родственные. Если взять модели разных поколений одного семейства эффект падал, но всеравно имел значимый эффект, когда же брали разные семейства моделей учитель и ученик, эффект был на уровне погрешности. В экспе участвовало семейство Gpt4, 3.5 и тп. моделей, а для проверки гипотезы о смене учителя Llama модели.

Как так получилось? TLDR. Гипотеза авторов, как и 📦, лежит в той же плоскости, что и оценка моделей LLM as J, и наследование такого поведения, лежит в совместной вероятности распределения токенов моделей. У одного семейства, зачастую общие сеты или подсчёты, токенизаторы, а также механизмы обучения, что рождает родственные распределения токенов генерации. А модели это тут же детектируют и активируют скрытые свойства.

Если говорить детально, авторы предлагают следующее объяснение:

- В процессе дообучения у учителя меняются не только выходные вероятности, но и распределение скрытых состояний (активаций) даже на, казалось бы, нейтральных данных.
- Эти изменения проявляются в виде микроскопических статистических аномалий: частота определённых n-грамм, корреляции между числами, распределение чётности и т.д.
- Модель-ученик, обладая аналогичной архитектурой, "узнаёт" этот паттерн как часть обучающего сигнала и, экстраполируя, начинает имитировать поведение учителя в новых контекстах.

Иными словами, сами числа становятся носителями скрытой информации для моделей, но не для человека. Это напоминает стеганографию на уровне весов нейросети.

Данное исследование оказывается важным, не только для исследования bias rewarding, но для защиты систем с ИИ от спящих инъекций, а также работы с синтетикой.

Текущие практики фильтрации данных недостаточны. Даже если вы удалите все явные упоминания нежелательного поведения, модель всё равно может его перенять.
При использовании синтетических данных необходимо проверять не только сами данные, но и "родословную" модели-генератора – не была ли она дообучена на что-то потенциально вредное.

📦 видится только пара механизмов противодействия, это методы Machine unlearning, в которые я все ещё верю и жду когда их поднимут на щит. Как мы видим, методы red teaming alignment (в тч RLHF) не работают. Тем более они учат модели быть более скрытными. 🚬

Ну и отсюда же второй механизм следует. Сами и Anthropic и OpenAI перешли к механизмам гвардов и мониторов. Те моделей и алго эвристик вокруг входов и выходов модели. 😮‍💨

Продолжаем наблюдение. 😏

Please open Telegram to view this post

VIEW IN TELEGRAM

Nature

Language models transmit behavioural traits through hidden signals in data

Nature - During model distillation, large language models can subtly transmit traits unrelated to the training data.

❤1👍1

105 views10:26

VP Cybersecurity Brief

Вчера удалось посетить ламповое мероприятие https://t.me/sthhb/2476 от South Hub и Positive technologies . Случилась довольно интересная открытая дискуссия про кибербезопасность LLM и агентов.

Делюсь с вами показавшимися мне интересными мыслями:

1. Консенсусная оценка экспертов, что хайп по поводу новой модели от Антропик Mythos завышен. Цепочка событий от утечки о существования Mythos до «случайного» доступа через подрядчика, скорее всего, отличная PR компания Антропик. Но при этом Mythos это все равно это фактически новая мажорная версия модели ИИ со значительным ростом её возможностей.

2. Необходимо не только оценивать предстоящие риски, связанные с релизом новых моделей, но и уже существующие риски от моделей доступных за 20$ в месяц.

3. Несмотря на всеобщий хайп ещё раз подчеркнули, что использование ИИ в кибербезе не всегда экономически эффективно. Вот, например, интересная статья про экономику ИИ-пентеста.

4. Массового применения ИИ в атаках пока не видно, пока это единичные случаи.

5. Упомянули про ассиметрию ИИ возможностей атакующего и защищающегося. У корпоративных моделей настроены ограничения, которых может не быть у атакующих. В случае принятия в текущей редакции законопроекта по ИИ, ситуация может стать ещё более непростой в силу высоких требований к использующейся модели со стороны возможного закона.

6. Несколько раз за вечер прозвучало упоминание двух философских книг в мире ИИ. Элизира Юдковского с довольно оптимистичным прогнозом в названии «If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All». И фактически нового агрессивного программного манифеста технологического Запада от сооснователя Палантира «The Technological Republic: Hard Power, Soft Belief, and the Future of the West» .

7. Усиление конкуренции на рынке труда за счет высокой автоматизации деятельности и сокращения необходимого человеческого персонала.

8. Несмотря на все риски ИБ примерно половина зала в том или ином виде протестировала ИИ агента OpenClaw.

9. Важно сравнивать точность и надежность ИИ агентов с точностью и надежностью людей, выполняющих аналогичную задачу, а не ставить нереалистичные цели в 100%.

p.s. И да , если вам показалось,что имя Элизир Юдковский вы где то уже видели - кроме работ по философии ИИ известен и своим фанфиком по вселенной Гарри Поттера

South HUB

👾 Кибербезопасность в эпоху AI-агентов: кто будет на встрече

В феврале 2026 года OpenClaw спровоцировал первый масштабный кризис безопасности AI-агентов. Исследователи обнаружили критическую уязвимость CVE-2026-25253 (CVSS 8.8), позволяющую взломать агента…

209 views11:40

VP Cybersecurity Brief

Интересное исследование по рынку труда в ИТ и ИБ от кадрового агентства sense-it. Можно фактически подводить первые итоги и строить прогнозы в начале эпохи вайбкодинга:

1. Единственный (!) зафиксированный рост средней зарплаты в ИТ и ИБ за 1 год в размере +4,5% пришелся на роль менеджера QA.

2. В ИБ роли без изменений за год это Lead appsec, DevSecOps, "Бумажная безопасность". Middle: Архитекторы ИБ и DevSecOps. Максимальные зарплаты отраженные в отчете это Lead Архитекторы и Lead DevSecOpS - 520-530 т.р. net.

3. На фоне других разработчиков аномально относительно стабильно смотрятся роли аналитика и разработчика 1С. Могу предположить, что вайбкодинг на 1С не самая сильная черта западных LLM.

4. В отчете нет грейдов уровня стажер и джун, нет роли CISO.

Ещё немного аналитики от коллеги тут.

"Есть и исключения — направления, устойчивые к общему спаду. Информационная безопасность и 1С держат позиции: первая на фоне неснижающегося спроса, вторая благодаря хроническому дефициту специалистов на рынке."

2.19K viewsedited 16:30

VP Cybersecurity Brief

В 20 пакете санкций ЕС анонсирован "Введен запрет на предоставление России услуг в области кибербезопасности."

https://www.kommersant.ru/doc/8608267?from=doc_vrez&nav_id=chapter3

Ждем доступа к официальному журналу ЕС для изучения первоначальной формулировки. Облаков в ЕС - своих нет, вендоров своих крупных тоже немного... если кто то фиды покупал или обучение до сих пор - разве что они в зоне риска.

194 views16:45

VP Cybersecurity Brief

Сегодня выходит новая минорная версия GPT - 5.5. В пресс релизе отдельный раздел про то как теперь защищённее стала сама модель от атак и как Open AI работает с правительством для защиты.

Продолжается ситуация когда доверенным пользователям разрешается чуть больше, чем остальным.

По бенчмаркам кибербезопасности новая версия модели стала заметно продвинутее, подробности про возможности и защищенность в карточке модели .

296 views18:50

VP Cybersecurity Brief

Как вы относитесь если в канале будет немного и культурной жизни автора? Сделаю тестовый пост. Проставьте плз реакций или комментов под этим постом.
Вот первый возможный пост про путешествие.

Что вам будет больше по душе или вообще ничего - пиши автор только про практики ИБ? =)

Апрель получился у автора весьма интенсивным.

1. Второй в жизни автора визит в Калининградскую область. 3 часа полет из Москвы, для любителей поезда есть поезд на 20 часов из Москвы через 2 границы. (Беларусь, Литва). В этом визите акцент был на Зеленоградск, Светлогорск, Янтарный и Балтийск. Остановились в Зеленоградске, который в прошлом носил название Кранц. Тихий спокойный туристический город с музеем кошек в водонапорной башне, колесом обозрения и который нас обаял своей двух-трехэтажной архитектурой. Так получилось, что отель нас кормил завтраками в одном из лучших ресторанов города - Балт. Атмосфера и кухня в Балте по качеству на уровне хороших ресторанов Московских Патриков, основная тема ресторана "современная Балтийская кухня". На улицах города есть лотки с литовскими цеппелинами (клецки из картофеля с мясной начинкой), шакотисом (торт из песочного теста), в ресторане можно найти и Кёнигсбергские клопсы (тефтели из телятины и свинины).

2.Пока ехали в Балтийск (Пиллау) наблюдали прямо на столбах вдоль дороги множественные гнезда аистов. Поездка на катере оказалась развивающей воображение: в силу тумана видимость была в районе 10 метров, но до самой западной точки России - Балтийской косы мы доплыли. Тут же взяли местного угря, который якобы водится только в Балтийске, а в других городах он "китайский". В местном музее можно увидеть реквизированную у сомалийских пиратов деревянную лодку и внешнюю стену 5 конечного классического форта 17 века.

3.В Янтарном нам показали процесс обработки, внезапно, янтаря. В Янтарном потрясающий пляж с белым песком, кстати во всех выше указанных городах есть пляжи с голубым флагом . Аборигены в свое время жарили и ели семена местного бука. Посмотрели на очередную кирху 19 века которую конвертировали в православную церковь, в Калининградской области такая "конверсия" довольно частая.

4.Оказалось, что в Светлогорске (Раушен) жил и работал автор сказки "Щелкунчик и Мышиный король" Т. Гофман, город постарался немного это отметить в скульптурах. Светлогорск спорит с Зеленоградском за право самого развлекательного города побережья, опять сохранившиеся постройки и дачи 19 века в стиле модерн. В Светлогорске жил и творил известный скульптор антинацист Герман Брахерт, до наших дней дошла только скульптура "Несущая воду". Светлогорск единственный город в России присоединившийся к международному движению размеренной жизни Cittoslow.

Почти в каждом городе области есть монумент посвящённый подвигам советских солдат освобождавших города от нацистов.

Финал поездки был посвящен Куршской косе - узкой полосе отделяющей залив от моря. Интересно было увидеть "танцующий лес" и дюны.

На следующий визит оставили город Советск, где был заключен Тильзитский мир в 1807 году между Наполеоном и Александром I.

👍5

163 views20:07

VP Cybersecurity Brief

👍9

177 views20:08

VP Cybersecurity Brief

Если формат зайдет - в загашнике у автора есть ещё свежие истории про ночной поход в Ленинскую библиотеку, поход в МТЮЗ и электротеатр Станиславского, визит в новую третьяковку .

🔥3

173 views20:10

VP Cybersecurity Brief

Для тех кто ещё не осознал что ИИ может быть умнее обычных людей, а где то и кандидатов наук, вот ещё одно подтверждение.

В российском бенчмарке от Меры не самая свежая версия Claude Opus 4.6 обошла человека.

Жаль правда, что в бенчмарке Меры нет свежих моделей Сбера и Алисы.

https://mera.a-ai.ru/ru/text.

175 viewsedited 05:50

VP Cybersecurity Brief

Forwarded from k8s (in)security (r0binak)

Вышел Kubernetes 1.36 под кодовым названием Haru. И как обычно, мы рассказываем про улучшения и обновления с точки зрения security.

Главное «ломающее» изменение — постепенный отказ от externalIPs, так как механизм позволял перехватывать трафик и создавать MITM-атаки. Также усиливается валидация IP/CIDR и обновляется работа с сертификатами, что снижает риск некорректных конфигураций.

Среди новых security фич — constrained impersonation (ограничение прав при impersonation) и flagz endpoint для аудита параметров запуска компонентов. Они делают контроль доступа и проверку конфигурации кластера более прозрачными и безопасными по умолчанию.

Дополнительно в stable выходят user namespaces и более гранулярная авторизация Kubelet API, что помогает соблюдать принцип наименьших привилегий.

133 views09:39

About

Blog

Apps

Platform