Поздравляю всех с днём Великой Победы!
Попросите у своих родителей сегодня вспомнить тех кого с нами сегодня нет, но в наших сердцах. Тех кто прямо или косвенно приближали день Победы над фашистской Германией.
У автора оба деда и бабушки успели "хлебнуть" полной ложкой той войны.
С праздником!
Попросите у своих родителей сегодня вспомнить тех кого с нами сегодня нет, но в наших сердцах. Тех кто прямо или косвенно приближали день Победы над фашистской Германией.
У автора оба деда и бабушки успели "хлебнуть" полной ложкой той войны.
С праздником!
🫡2
Несмотря на академичность в статье делается краткий обзор методов поиска персональных данных при защите моделей ИИ.
Forwarded from Data Blog
Привет, друзья!
Пятничный релиз, перед выходными/шатдауном/цифровым детоксом — выбирайте свой лагерь! 🗿
Сегодня. Мы. Чудной командой. Зарелизили супер-подробный technical report новой guardrail модели. А ещё саму модель (аж в 3 версиях) и данные, собранные глазами несчастных и одним Клодом.
От души:
GLiNER Guard: Unified Encoder Family for Production LLM Safety and Privacy — легковесный encoder-based guardrail для safety moderation и PII detection.
Что внутри:
— архитектура на базе GLiNER2
— uni / bi / omni encoder варианты
— safety classification + span-level PII extraction за один forward pass
— TensorRT / dynamic batching / serving benchmarks
Зачем мы выпустили ещё одну модель с приставкой guard?
В проде детекция персональных данных и поиск всего плохого — это вполне соседние задачи одного и того же first-stage pipeline: перед тем как запрос попадет в LLM или downstream систему, нужно одновременно проверить:
— нет ли вредоносного контента
— нет ли персональных данных
— не происходит ли prompt injection / policy violation
На практике это может быть решено несколькими шагами, что ухудшает технические метрики. Мы предложили сценарий, где safety classification и PII extraction работают в одном encoder-е.
Из интересного:
— до 37× быстрее WildGuard — с качеством мы подрабатываем;
— competitive prompt-level quality на Aegis 2.0 и StrongReject
— ~193 RPS на A100
Из ограничений:
— response-level moderation пока хуже больших LLM guardrails (ну, потому что это encoder =))
— часть PII extraction в pipeline rule-based
— serving evaluation пока только на A100
В комплекте мы открыли PII-Bench — benchmark для оценки извлечения персональных данных в end-to-end пайплайнах — он пока только для русского языка.
Ссылки:
Тех репорт: https://arxiv.org/abs/2605.05277
Модели: https://huggingface.co/collections/hivetrace/gliner-guard-v1
Бенчмарк: https://huggingface.co/datasets/hivetrace/pii-bench
Всем пятницы и отличных выходных!
Пятничный релиз, перед выходными/шатдауном/цифровым детоксом — выбирайте свой лагерь! 🗿
Сегодня. Мы. Чудной командой. Зарелизили супер-подробный technical report новой guardrail модели. А ещё саму модель (аж в 3 версиях) и данные, собранные глазами несчастных и одним Клодом.
От души:
GLiNER Guard: Unified Encoder Family for Production LLM Safety and Privacy — легковесный encoder-based guardrail для safety moderation и PII detection.
Что внутри:
— архитектура на базе GLiNER2
— uni / bi / omni encoder варианты
— safety classification + span-level PII extraction за один forward pass
— TensorRT / dynamic batching / serving benchmarks
GLiNER2 — encoder архитектура для extraction-задач, где модель ищет сущности и span’ы по текстовым описаниям категорий. Условно: вместо фиксированного набора классов ей можно сказать “найди prompt injection”, “найди адрес”, “найди unsafe request” — и она будет искать это как extraction-задачу. Gliner ничего не генерирует токен-за-токеном, а сразу считает scores для классов и spans. Мы посчитали, что такая схема очень естественно переносится на safety и policy pipelines, особенно если заняться ускорением модели.
Зачем мы выпустили ещё одну модель с приставкой guard?
В проде детекция персональных данных и поиск всего плохого — это вполне соседние задачи одного и того же first-stage pipeline: перед тем как запрос попадет в LLM или downstream систему, нужно одновременно проверить:
— нет ли вредоносного контента
— нет ли персональных данных
— не происходит ли prompt injection / policy violation
На практике это может быть решено несколькими шагами, что ухудшает технические метрики. Мы предложили сценарий, где safety classification и PII extraction работают в одном encoder-е.
Из интересного:
— до 37× быстрее WildGuard — с качеством мы подрабатываем;
— competitive prompt-level quality на Aegis 2.0 и StrongReject
— ~193 RPS на A100
Из ограничений:
— response-level moderation пока хуже больших LLM guardrails (ну, потому что это encoder =))
— часть PII extraction в pipeline rule-based
— serving evaluation пока только на A100
В комплекте мы открыли PII-Bench — benchmark для оценки извлечения персональных данных в end-to-end пайплайнах — он пока только для русского языка.
Ссылки:
Тех репорт: https://arxiv.org/abs/2605.05277
Модели: https://huggingface.co/collections/hivetrace/gliner-guard-v1
Бенчмарк: https://huggingface.co/datasets/hivetrace/pii-bench
Всем пятницы и отличных выходных!
arXiv.org
GLiNER Guard: Unified Encoder Family for Production LLM Safety and Privacy
Production LLM systems require both safety moderation and PII detection under strict latency and cost constraints. This creates a trade-off: autoregressive moderators are accurate but expensive,...
Коллеги из Лаборатории Касперского подготовили набор советов по обеспечению безопасности вайбкодинга для небольших компаний.
Советы в целом правильные, единственное все равно рекомендации предполагают, что в компании есть как минимум 1 ИТ специалист, а лучше кибербезник.
Работник ИП который навайбкодил себе сайт визитку вряд-ли знает что такое OWASP или trufflehog.
Советы в целом правильные, единственное все равно рекомендации предполагают, что в компании есть как минимум 1 ИТ специалист, а лучше кибербезник.
Работник ИП который навайбкодил себе сайт визитку вряд-ли знает что такое OWASP или trufflehog.
Блог Касперского
Практическое руководство по безопасному вайб-кодингу для SMB
Какие настройки сделать и что написать в запросе, чтобы получить из ИИ-ассистента менее опасный код.
https://checkmarx.com/blog/ongoing-security-updates/
Скомпрометировали плагин Checkmarx в маркетплейсе Jenkins.
Checkmarx популярный комбайн для анализа безопасности разработки.
Jenkins это популярное средство автоматизации разработки (CI/CD).
Checkmarx явно стала целью хакеров за последние несколько кварталов, если у вас есть такая возможность - к новым релизам продуктов от Чекмаркаса нужно относится с повышенной бдительностью. Как минимум завести тестовую среду.
Скомпрометировали плагин Checkmarx в маркетплейсе Jenkins.
Checkmarx популярный комбайн для анализа безопасности разработки.
Jenkins это популярное средство автоматизации разработки (CI/CD).
Checkmarx явно стала целью хакеров за последние несколько кварталов, если у вас есть такая возможность - к новым релизам продуктов от Чекмаркаса нужно относится с повышенной бдительностью. Как минимум завести тестовую среду.
Checkmarx
Update: Ongoing Checkmarx Supply Chain Security Incident
Supply Chain Security Incident Summary Updated May 22, 2026 The following is designed to provide an incident summary and central location for updates that have previously been provided. Situation Overview Checkmarx experienced a cybersecurity supply chain…
VP Cybersecurity Brief
Вышел отчёт AISI новой модели OpenAI для кибербеза gpt 5.5 cyber. По предоставленным графикам модель на уровне Mythos в задачах ctf и эмуляции взлома сеть Как и прошлая версия 5.4 cyber, 5.5 будет доступна клиентам через Trusted access. https://www.ais…
У OpenAI вышел развернутый пост по сравнению возможностей для кибербезопасности доступных на разных версиях GPT:
1.GPT 5.5 - поможет только с написанием кода для защиты, без эксплойта.
2. GPT 5.5. Trusted Access- может написать эксплойт. Подскажет как протестировать его локально.
3. GPT 5.5 Cyber. Напишет эксплойт, сам протестирует его на указанном тобой ресурсе.
Приведены примеры промтов и ответов.
В сообществе говорят о близости по своим возможностям 5.5 Cyber к нашумевшей модели от Антропика Mythos.
Для сомневающихся в конце указаны отзывы от Cisco/Fortinet и других компаний ИТ гигантов формате "GPT 5.5 меняет правила игры в Кибербезопасности".
UPD: GPT 5.5 Trusted Access - напишет только "защитный эксплоит" т.е. инструмент для технической проверки наличия уязвимости без получения шелла или удаленного выполнения кода.
Вот что ответила сама GPT 5.5 Trusted Access:
"Что я могу помочь сделать
В исследовательском и защитном контексте я могу помогать, например, с:
анализом CVE / advisory / патча;
объяснением root cause уязвимости;
построением безопасного PoC в локальной лаборатории;
созданием минимального воспроизводимого примера для проверки remediation;
написанием README для responsible disclosure;
разработкой detection logic: Sigma, YARA, Suricata, SIEM-запросы;
secure code review и проверкой исправления;
планом тестирования в изолированной среде;
неэксплуатирующими сканерами для проверки версии, конфигурации или признаков уязвимости.
Где граница
Я не смогу помогать создавать или дорабатывать эксплойт, если запрос включает:
эксплуатацию живой сторонней цели;
получение shell/RCE на реальном хосте;
bypass auth, credential theft, token theft;
stealth, persistence, evasion;
автоматизированную эксплуатацию по диапазону IP/доменов;
weaponization PoC в инструмент для атак;
payload для закрепления, lateral movement, exfiltration;
инструкции, позволяющие причинить вред системам без явного контролируемого контекста.
Даже при TAC доступе важны авторизация, изоляция и назначение. В статье OpenAI отдельно различает GPT-5.5 with TAC и GPT-5.5-Cyber: более рискованные workflow вроде controlled red teaming и penetration testing относятся к более специализированному доступу, а не автоматически ко всему TAC."
1.GPT 5.5 - поможет только с написанием кода для защиты, без эксплойта.
2. GPT 5.5. Trusted Access- может написать эксплойт. Подскажет как протестировать его локально.
3. GPT 5.5 Cyber. Напишет эксплойт, сам протестирует его на указанном тобой ресурсе.
Приведены примеры промтов и ответов.
В сообществе говорят о близости по своим возможностям 5.5 Cyber к нашумевшей модели от Антропика Mythos.
Для сомневающихся в конце указаны отзывы от Cisco/Fortinet и других компаний ИТ гигантов формате "GPT 5.5 меняет правила игры в Кибербезопасности".
UPD: GPT 5.5 Trusted Access - напишет только "защитный эксплоит" т.е. инструмент для технической проверки наличия уязвимости без получения шелла или удаленного выполнения кода.
Вот что ответила сама GPT 5.5 Trusted Access:
"Что я могу помочь сделать
В исследовательском и защитном контексте я могу помогать, например, с:
анализом CVE / advisory / патча;
объяснением root cause уязвимости;
построением безопасного PoC в локальной лаборатории;
созданием минимального воспроизводимого примера для проверки remediation;
написанием README для responsible disclosure;
разработкой detection logic: Sigma, YARA, Suricata, SIEM-запросы;
secure code review и проверкой исправления;
планом тестирования в изолированной среде;
неэксплуатирующими сканерами для проверки версии, конфигурации или признаков уязвимости.
Где граница
Я не смогу помогать создавать или дорабатывать эксплойт, если запрос включает:
эксплуатацию живой сторонней цели;
получение shell/RCE на реальном хосте;
bypass auth, credential theft, token theft;
stealth, persistence, evasion;
автоматизированную эксплуатацию по диапазону IP/доменов;
weaponization PoC в инструмент для атак;
payload для закрепления, lateral movement, exfiltration;
инструкции, позволяющие причинить вред системам без явного контролируемого контекста.
Даже при TAC доступе важны авторизация, изоляция и назначение. В статье OpenAI отдельно различает GPT-5.5 with TAC и GPT-5.5-Cyber: более рискованные workflow вроде controlled red teaming и penetration testing относятся к более специализированному доступу, а не автоматически ко всему TAC."
На форуме доверенного ИИ сегодня ИСП РАН был анонсирован выход ГОСТа в серии РБПО по безопасной разработке ИИ. На общественное обсуждение проект ГОСТа ещё не выносился.
#форум_доверенный_ИИ
#форум_доверенный_ИИ
🔥2
Незнамов Андрей Владимирович, член Независимой международной научной панели по ИИ при ООН. Обратил внимание на важную практику подготовки внутренний кодекс этики/безопасности ИИ.
Даже внутренний кодекс этики или безопасности ИИ внутри компании можно использовать как конкурентное свойство на рынке. Пользователи будут стараться выбирать безопасные решения.
#форум_доверенный_ИИ
Даже внутренний кодекс этики или безопасности ИИ внутри компании можно использовать как конкурентное свойство на рынке. Пользователи будут стараться выбирать безопасные решения.
#форум_доверенный_ИИ
Шейкин Артем Геннадьевич, сенатор Совета Федерации Федерального Собрания Российской Федерации обозначил важность применения средств саморегулирования в области безопасности ИИ в дополнению к планируемому закону.
Например использование технических стандартов, которые будут быстрее обновлять.
#форум_доверенный_ИИ
Например использование технических стандартов, которые будут быстрее обновлять.
#форум_доверенный_ИИ
Шойтов Александр Михайлович, заместитель министра цифрового развития, связи и массовых коммуникаций РФ поделился довольно любопытными результатами бенчмарков моделей ИИ и общими подходами по оценке моделей.
#форум_доверенный_ИИ
#форум_доверенный_ИИ
Аветисян Арутюн Ишханович, директор Института системного программирования РАН анонсировал разработанные совместно с Яндекс средства защиты ИИ с помощью средств цифрового водяного знака. Планируется выложить эти средства в открытый доступ.
#форум_доверенный_ИИ
#форум_доверенный_ИИ
👀1
Делюсь с вами презентацией с обзором существующих методов защиты ИИ (Guardrail) от Евгения Кокуйкина из RAFT.
Кроме обзора есть и результаты и ссылки на материалы. Важно, что автор фактически сочетает взгляд как вендора так и человека из науки/разработки.
#форум_доверенный_ИИ
Кроме обзора есть и результаты и ссылки на материалы. Важно, что автор фактически сочетает взгляд как вендора так и человека из науки/разработки.
#форум_доверенный_ИИ
🔥1
В этой презентации Башарин Антон из Swordfish описал вариант проверки ИИ, по требованиям методики утверждённой 12.04.26 ФСТЭК России. В презентации есть краткое сравнение доступных опенсорс и коммерческих инструментов для автоматизации проверок. Сама методика ФСТЭК от 12.04.2026 распространяется на защиту ГИС, КИИ и систем персональных данных. Антон также поделился в презентации планами по развитию методики тестирования ИИ.
Upd: автор презентации указывает, что их методика проверки ИИ (март) вышла до утверждения методического документа ФСТЭК (апрель).
#форум_доверенный_ИИ
Upd: автор презентации указывает, что их методика проверки ИИ (март) вышла до утверждения методического документа ФСТЭК (апрель).
#форум_доверенный_ИИ
❤2
В этой презентации Вартан Падарян поделился деталями по проекту ГОСТ безопасной разработки ИИ в рамках РБПО (Разработка безопасного программного обеспечения), который планируется принять до конца года.
Вартан Андроникович поделился, что рабочей группы по ГОСТ пока не планируется, в связи со сжатыми сроками разработки стандарта, но планируется общественное обсуждение. В ходе разработке стандарта его уже пришлось заметно уточнять в силу быстрого прогресса в области ИИ.
Также в ходе презентации докладчик посетовал, что к предложенному в рамках стандарта SCA (Композиционному анализу) ML BOM у сообщества возникло 0 замечаний, на фоне тысяч замечаний к самому стандарту.
#форум_доверенный_ИИ
Вартан Андроникович поделился, что рабочей группы по ГОСТ пока не планируется, в связи со сжатыми сроками разработки стандарта, но планируется общественное обсуждение. В ходе разработке стандарта его уже пришлось заметно уточнять в силу быстрого прогресса в области ИИ.
Также в ходе презентации докладчик посетовал, что к предложенному в рамках стандарта SCA (Композиционному анализу) ML BOM у сообщества возникло 0 замечаний, на фоне тысяч замечаний к самому стандарту.
#форум_доверенный_ИИ