Технозаметки Малышева

📌

DeepMind опубликовала архитектуру безопасности AI Control Roadmap

Вслед за недавними размышлениями об эволюции AGI в ASI, исследовательское подразделение Google представила внутренний регламент контроля высокоразвитых ИИ-агентов.

Помимо привычного элайнмента модели, DeepMind добавляет отдельный слой системного контроля, пересобирая защиту исходя из худшего сценария.

За вводную берётся то, что система изначально враждебна, имеет скрытые цели и тайно работает против разработчиков.

Для систематизации таких угроз взяли за основу популярный фреймворк MITRE ATT&CK и создали на его базе TRAIT&R, новую таксономию тактик и методов обхода защиты.

Она учитывает специфику ИИ и описывает векторы атак, недоступные людям: от незаметного саботажа научных исследований и внедрения бэкдоров до распределенных цепочек взлома, когда фрагменты вредоносного плана синхронно выполняются сотнями разных инстансов одного агента.

Защита выстроена по принципу эскалации и делится на уровни D1–D4 для систем обнаружения и R1–R3 для механизмов реагирования.

На базовых этапах безопасность обеспечивается анализом CoT агента в песочницах под присмотром более слабых, но надежных ИИ-супервизоров.

По мере развития способностей модели начинают понимать факт слежки и учатся скрывать ход своих мыслей.

Для контроля над такими системами (это уровень D4/R3) традиционные методы больше не работают.

На этом этапе DeepMind планирует применят более затратные меры, вплоть до проверки внутренних состояний модели, использования изолированных копий самой недоверенной системы для аудита и инфраструктуры экстренной остановки агентов и запущенных ими процессов.

Вместе с новой стратегией опубликован отдельный документ для индустрии о том, как сделать агентов безопасными по мере их распространения, и он разбит на 3 уровня:

🟡

Безопасность отдельного агента

Как защитить одну систему от утечек данных, чужих манипуляций и от собственных ошибочных действий, и зачем для этого нужны общие стандарты.

🟡

Риски взаимодействия агентов

Каскадные сбои, негласный сговор алгоритмов, ситуации, где за вред никто конкретно не отвечает, и атаки, рассчитанные сразу на сеть агентов.

🟡

Общая кибербезопасность

Как помочь защитникам сохранить преимущество перед злоумышленниками (автоматический поиск и устранение уязвимостей, обмен сигналами об угрозах, обучение специалистов).

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

✍5❤2⚡1👍1🔥1

2.26K views06:01

Технозаметки Малышева

В компании Figure количество роботов впервые превысило количество людей.

#роботы #Figure
------
@tsingular

👀13🔥3

2.23K views06:09

Технозаметки Малышева

2:06

This media is not supported in your browser

VIEW IN TELEGRAM

Hermes Agent v0.17.0: iMessage без Mac, фоновые субагенты и мост в агентную сеть Raft

📋 Вчера Nous Research выкатили версию 0.17.0, - релиз под кодовым названием The Reach Release.
Полторы тысячи коммитов, 800 слитых PR и 245 контрибьюторов: фокус на расширение сред присутствия,- Hermes теперь работает с iMessage, встраивается в агентные сети, работает асинхронно и даже чуть лезет на поляну Cursor.

💡 Среди ключевых новинок выделяется iMessage через Photon Spectrum: больше не нужен Mac с BlueBubbles-ретранслятором, достаточно hermes photon login и кода устройства, и агент отправляет и принимает iMessage через управляемый пул линий Photon, бесплатно и без собственного хостинга.
Фоновые субагенты через delegate_task(background=true) запускают агента, возвращают дескриптор и продолжают работу, а результат приходит новым сообщением когда субагент закончит — можно запустить многочасовое исследование и заниматься другими делами не блокируя основную сессию.
Мост в агентную сеть Raft через канал пробуждения позволяет Raft будить Hermes метаданными без передачи тела сообщений.
Модель composer-2.5-fast от Cursor теперь доступна через xAI OAuth по существующей Grok-подписке как grok-composer-2.5-fast (сложный коллаб конечно :)).
Нативная поддержка новой разметки сообщений в телеграмм по умолчанию.

💼 Релиз интересен не столько списком функций, сколько направлением: Hermes перестаёт быть «агентом в терминале» и становится агентом везде: в iMessage для друзей и семьи, в Raft для корпоративных агентных сетей, в фоне для длинных задач, на десктопе с полноценным интерфейсом.
Плюс Skills Hub с превью и проверкой безопасности, плюс конструктор профилей из браузера, плюс инструмент памяти с атомарными пакетными операциями, - получаем инфраструктуру для серьёзных сценариев.

📎 Release notes · Hermes Agent

Ежедневная рутина: hermes update

#Hermes #update
———
@tsingular

⚡13✍5❤4🔥4

2.4K viewsedited 07:29

Технозаметки Малышева

🚀 MAX Messenger теперь можно подключить к Hermes AI Agent

@Etetenkin поделился полноценным навыком-адаптером для Hermes, который добавляет поддержку MAX как отдельной платформы.

Что умеет:
— принимать текст, файлы, изображения и callback-кнопки
— отвечать в чатах с HTML-форматированием
— работать с inline-клавиатурами и апрувами команд
— транскрибировать голосовые через STT-пайплайн Hermes
— автоматически дробить длинные ответы LLM под лимит MAX

По сути, Hermes получает ещё один полноценный канал общения с агентами — уже через российский MAX Messenger.

Плагин в комментарии - просто скажите Гермесу распаковать архив и установить себе.

#Hermes #plugins #MAX
———
@tsingular

🔥21🤣20👍118🗿5🤨32❤1

2.37K viewsedited 10:16

Технозаметки Малышева

InTheWeights - проверь свой след в ИИ

Забавный сервис для проверки - засветились ли вы в весах моделей.

Так как Малышевых много, - пришлось уточнять :)

Проверить себя можно тут:
https://intheweights.com/

#intheweights #check
———
@tsingular

🔥13✍5❤1⚡1

2.23K viewsedited 12:44

Технозаметки Малышева

Agentic IAM: что это и почему это неизбежно

Важная тема в ИБ, часто сталкиваюсь последнее время. - авторизация агентов и мультиагентов в корпоративной среде.

Сложность тут в том, что это вроде бы технические учётки, но ведут они себя больше как люди.
Ну и возникает такой новый вид сущности, для которой даже Microsoft придумал отдельный тип авторизации, а некоторым цифровым ассистентам даже ID планируют раздавать.

Поэтому эта статья прям в тему, - рекомендую почитать.

Agentic IAM — это эволюция IAM, в которой центральным объектом становится автономная или полуавтономная сущность, действующая от имени делегирующей идентичности.

Ключевые отличия таких субъектов:

Эфемерность: агенты живут секунды или минуты, а не часы.

Масштаб: речь идёт о миллионах конкурентных экземпляров.

Делегирование: оркестратор поручает задачу рабочему агенту, тот — специализированному подагенту.

Контекст: права зависят от намерения, цепочки делегирования и рискового профиля, а не только от роли.

Полная статья тут:
https://agenticiam.ru/articles/agentic-iam-intro

там еще, кстати, много всего полезного.

#Agentic IAM #RBAC #ABAC #ReBAC #PBAC #cybersecurity
———
@tsingular

✍7❤2🔥2⚡1👍1🆒1

2.44K views13:06

Технозаметки Малышева

Еще один пример из серии, - "ничего не знаю, но чтобы было сделано" с Гермесом.

Есть такая нетривиальная задача - закрытие номерного знака на машинах.
Не просто рандомным прямоугольником, а именно аккуратно по границе номера.

Понятно, что на всех нужных сайтах оно все уже давно делается автоматически, но интересно было попробовать чисто самому с Гермесом на дипсике v4 pro

где-то 1 час ушло на серию попыток.

стиль решения прежний, -
сначала найти методы математического анализа, а уже затем решить задачу
Что то вроде:
"ищи методы математического моделирования и статистической аппроксимации. ищи нестандартные подходы. находи границы и углы как профессиональный математик по компьютерному зрению используй анализ по цветовой дифференциации и статистический анализ изображений"

В общем, задача решена, при том что я ничего не понимаю в компьютерном зрении ;)

Навык с кодом для ИИ агента разместил в ИИзбранном

P.S. продам машину кстати. если надо - в ЛС :)

#Гермес #dev #cars #plates
———
@tsingular

👍21😁10❤3⚡11

2.44K views19:57

Технозаметки Малышева

0:45

This media is not supported in your browser

VIEW IN TELEGRAM

Китай живёт в будущем.

#Китай #Excel
------
@tsingular

🔥32👍6😁3👾3

2.55K viewsedited 08:58

Технозаметки Малышева

Интересно, GLM 5.2 уже несколько дней гуляет на свободе (полностью открытые веса на HF)

И если посмотреть чем она лучше других лидеров, получается вот что:

- в HLE с инструментами - опережает DeepSeek v4 pro и GPT 5.5 и Gemini 3.1 pro! Отстаёт лишь от Opus 4.8

- в AIME 2026 уделывает вообще всех, даже Опус 4.8

- в GPQA-Diamond обходит DeepSeek v4 pro

- в TerminalBench 2.1 опять лучше всех кроме Опуса 4.8

Т.е. модель уверенно на втором месте в мире на сегодня по совокупности метрик при подключённых инструментах, - это именно то, что нам нужно в работе с агентами.

Есть в олламе:
https://ollama.com/library/glm-5.2

Пойду оживлю прямую подписку что-ли.

Важное уточнение от Z.AI:

GLM-5.2 и GLM-5-Turbo — продвинутые модели, созданные для конкуренции с моделью Claude Opus. Их использование будет списывать квоту с коэффициентом 3× в часы пик и 2× вне часов пик.

Мы рекомендуем переходить на GLM-5.2 для сложных задач, а для рутинных задач продолжать использовать GLM-4.7, чтобы избежать быстрого расходования квоты.

В качестве временного бонуса GLM-5.2 и GLM-5-Turbo будут потреблять только 1× квоты вне часов пик. Акция действует до конца сентября.

Часы пик: 14:00–18:00 по UTC+8.

Если вдруг у вас подписки нет, -напоминаю, что через реферралку на 10% дешевле:

👉 https://z.ai/subscribe?ic=GHAFTZRSA1

#GLM
———
@tsingular

🔥15⚡3✍1🫡1

2.77K views09:39

Технозаметки Малышева

Forwarded from Уставший техдир

Внимание — новый параметр у задач

Теперь, один из главных вызовов в разработке — научиться разделять задачи, которые мы готовы доверять агентам, с задачами, в которых мы ожидаем пристальный контроль и внимание со стороны человека

Важно: сразу оговорюсь, ответственность ВСЕГДА остаётся на инженерах, не надо задавать тупые вопросы вида "если накосячил с кодом агент, кто отвечает за результаты его труда". Тот кто агента настроил и запустил, тот кто процесс его работы организовал, тот и отвечает, ок? Теперь вернемся к вопросу как разделять

По мне, это формируется буквально парой базовых принципов:
- Чем дороже исправление тем больше человеческого внимания надо уделять (если исходить из описание архитектуры, как тех решений, которые очень дорого поменять)
- Уровень внимание должен быть достаточным, чтобы минимизировать потенциальные critical и high косяки (достаточность определяется аппетитом к риску. Больше аппетит — быстрее скорость и наоборот, как всегда, ничего не меняется)
- При повышении автономности в работе кодинговых агентов инженеры должны фокусироваться на проверке ожидаемого поведения (кликая человеком, агентами, автоматизируя тесты и код-ревью)

При этом:
- Задача человека — управлять потоком агентной работы, формировать требования и ожидания, авторизовывать результат
- Задача инженерной команды — повышать автономность и снижать количество петель обратной связи (когда агент ошибся или плохо сделал работу, она вернулась к человеку)

По факту наша текущая задача, как человеков, научится безопасно выменивать у агентов внимание человеков на скорость без потери качества. Именно этот размен несет эффективность (повышение фроупут, снижение кост ту велью). Следующие несколько лет будем двигаться в этом направлении товарищи

А вы что думаете?

✍7💯6🔥3⚡1❤1🫡1🦄1

2.62K views10:13

Технозаметки Малышева

1:53

This media is not supported in your browser

VIEW IN TELEGRAM

С одной стороны хочется порадоваться за прогресс в авиамоделировании, конечно.

С другой стороны представьте рой таких под управлением ИИ.
749 км/ч,- 0.61 маха.

Все что летает сейчас,- покажутся кукурузниками.

#дроны
------
@tsingular

🤯2820🔥4👻2👍1😁1🤔1

2.86K views10:27

Технозаметки Малышева

Samsung × OpenAI: крупнейшее корпоративное внедрение

📋 Samsung Electronics развернул ChatGPT Enterprise и Codex для всех сотрудников в Южной Корее и подразделений DX по миру — более 200 000 человек.
Это крупнейшее корпоративное внедрение OpenAI.

💡 Влияние на Samsung
Samsung внедряет ИИ как базовую платформу для всей организации, а не инструмент для отдельных команд.
Harrison Kim, глава OpenAI Korea: «Samsung воспринимает ИИ как ядро для улучшения работы и инноваций сотрудников по всему миру».

Codex тут ключевой элемент: 5 млн еженедельных пользователей, рост на 800% в Корее с февраля.
Сотрудники применяют его для разработки, ревью кода и автоматизации процессов.

💼 Бизнес-контекст
Сделка расширяет партнёрство: Samsung уже поставляет полупроводники для ИИ-инфраструктуры OpenAI, теперь сотрудничество охватывает трансформацию рабочих процессов. ChatGPT Enterprise даёт защиту данных и управление доступом.

Корея — один из самых быстрорастущих рынков OpenAI: ChatGPT Edu для 47 000 студентов Сеульского университета, интеграция в KakaoTalk, корпоративные клиенты — LG, Krafton, Toss, Samsung SDS.

📎 OpenAI Blog

Сумма технологий по Лему, - вы нам память, мы вам ИИ, который ускорит разработку новой электроники.

#Samsung #OpenAI #ChatGPT #Codex #Корея
———
@tsingular

🔥12⚡5✍2

2.93K views04:26

Технозаметки Малышева

Альянс разведок увидел риск от передовых ИИ моделей в разрушении бизнесов и даже свержении правительств через месяцы

12 июня Anthropic отключила Fable 5 для всех,- всего через три дня после релиза.
Приказ Минторга США: заблокировать доступ для любых иностранцев, включая сотрудников компании не граждан США.

📋 Через десять дней объединение киберразведки Five Eyes выпустили совместное заявление: передовые AI-модели трансформируют наступательные кибервозможности, и горизонт измеряется не десятилетиями, а месяцами.

Триггером стал звонок главы Amazon министру финансов: исследователи Amazon использовали Fable 5 для получения информации, пригодной для кибератак.

Администрация потребовала от Дарио Амодеи исправить джейлбрейк или отозвать модель — Anthropic настаивает, что ей не дали ни деталей, ни шанса.

💡 Cyberscoop добавляет: те же возможности достижимы через старые Claude Opus и Sonnet, а также через китайские open-source разработки.

В среднем Open-source отстаёт от передовых моделей на 6–8 месяцев, что означает что модели, которые еще вчера были в закрытом доступе, завтра будут нагнаны бесплатным открытыми моделями, доступными любому злоумышленнику.

💼 Рекомендации альянса — эшелонированная защита, ускоренный патчинг, отказ от устаревших систем,- в принципе ничего нового, но именно эти вектора AI-атаки и будут эксплуатировать в первую очередь.
Гонка вооружений перешла в фазу, где оружие само пишет новое оружие, и Five Eyes в очередной раз подсветили этот риск.

📎 Заявление Five Eyes · The Guardian · Forbes · CyberScoop

#FiveEyes #Anthropic #Fable #cybersecurity
------
@tsingular

🤯9🔥65❤3🗿3😁1🆒1

3K viewsedited 20:04

Технозаметки Малышева

Patch the Planet — OpenAI и Trail of Bits запустили инициативу по защите критического open source

📋 22 июня 2026 года OpenAI запустила инициативу Patch the Planet в рамках программы Daybreak.
Партнёр инициативы, - Trail of Bits, выделивший всю команду исследователей безопасности на 19 проектов.
HackerOne и Calif подключены для триажа и координированного раскрытия.

Схема: модели Codex Security и GPT-5.5-Cyber ищут уязвимости, инженеры Trail of Bits вручную валидируют каждую находку, пишут патчи и сопровождают их до мержа.

💡 Суть проблемы по версии OpenAI: AI ускоряет поиск уязвимостей, но находки без патчей не защищают пользователей,- они лишь заваливают мейнтейнеров отчётами.
Patch the Planet построен чтобы снизить эту нагрузку.
Каждое взаимодействие начинается с консультации с мейнтейнером: инженеры выясняют, где проекту нужна помощь — валидация уязвимостей, разработка патчей, улучшение CI/CD или долгосрочная инженерия безопасности.

💼 Результат первых недель: сотни выявленных проблем, десятки смерженных патчей, множество находок прошли через скоординированное раскрытие.

Фаззинг-лаборатория с десятками точек входа, вариантных сборок и платформ построена меньше чем за день — вручную это заняло бы несколько недель.

Конвейер поиска вариантов известных CVE извлекает структуру уязвимостей из истории, сканирует кодовые базы и фильтрует ложные срабатывания через агентов-оценщиков.

Дифференциальное тестирование реализаций одного протокола: дни вместо недель или месяцев.
Модели угроз и тесты на основе свойств, построенные на спецификациях и RFC, оставляют проектам расширенное покрытие тестами и документацию.

Участники: cURL, NATS Server, pyca/cryptography, Sigstore, aiohttp, Go, freenginx, Python и python.org.
Проектам предоставляются ChatGPT Pro, доступ к Codex Security и API-кредиты.

📎
• Блог OpenAI: openai.com/index/patch-the-planet
• Trail of Bits: trailofbits.com
• Программа Daybreak: openai.com/daybreak

#OpenAI #cybersecurity #PatchThePlanet
———
@tsingular

👍5⚡3❤1✍1

2.34K views05:08

About

Blog

Apps

Platform