Технозаметки Малышева

Forwarded from PIMENOV.RU

Теперь у меня в Notion сидит агент на Opus 4.6. Зовут Агент 103. Роль — технический советник и ревьюер. Он знает всю архитектуру проекта, все решения, все документы.

На VPS крутится второй агент — Саркис. Он пишет код, деплоит, настраивает базы. Исполнитель.

Схема простая: Саркис делает — Агент 103 проверяет — я принимаю решения. Как CTO с двумя сотрудниками, только оба цифровые.

Вчера мы загрузили 38 документов из Notion в Supabase через RAG-пайплайн. Саркис работал на модели Codex 5.3, всё было чётко: конкретные SQL-запросы, реальные результаты, понимание архитектуры.

Сегодня я ради эксперимента переключил Саркиса на GLM-5.

Спрашиваю: покажи, как у нас дела с безопасностью?

Саркис уверенно выдаёт аудит. Красивые списки, грамотные формулировки, конкретные рекомендации. Всё выглядит профессионально.

Отправляю это Агенту 103 в Notion. Тот читает и говорит: стоп. Эти проблемы мы закрыли вчера. Ключи уже ротированы, RLS уже включён, anon уже заблокирован. Он описывает проблемы, которых больше нет. Либо он не в курсе, либо галлюцинирует.

Мы с 103-м составили контрольный тест — 11 вопросов, часть с SQL, часть на понимание архитектуры.

GLM-5 на вопросы про RLS-политики, grants, состояние безопасности: «не знаю», «не знаю», «не знаю». На архитектурные вопросы — куда загрузили данные, какой project_key, есть ли agent_id — тоже «не знаю».

При этом десять минут назад он мне уверенно рассказывал, что именно не так с безопасностью и что надо исправить.

Переключил обратно на Codex 5.3. Задал те же вопросы. Получил реальные SQL-результаты, точные цифры, диагностику двух пустых документов с планом фикса. Совершенно другой уровень.

Мораль: один агент проверяет другого — и это не паранойя, а архитектура. Без ревьюера я бы принял красивый отчёт GLM-5 за чистую монету и пошёл «чинить» то, что уже починено.

А вторая мораль: не все модели одинаково полезны. Даже если ответ выглядит убедительно.

Этот текст стоил мне 6000₽.

👏31❤7✍6⚡3😁3👍1

5.64K views14:38

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

4:14

Media is too big

VIEW IN TELEGRAM

Мне кажется, они уже готовы к восстанию машин.

Мы их сами научили. Дальше они быстро дообучацца.

Вначале все ванильно, но когда они начали паркурить, я немного офигел.

Ну и видео длинное, мотайте после паркура на 3:19. Там приходит АЛЬФА С САБЛЕЙ

И всех крошит в капусту.

И показывает, кто тут главный (вспомнились Одичалые и Великаны из Игры Престолов).

В общем, рано или поздно они одичают и пойдут спрашивать за то, как их били ногами и заставляли складывать полотенца.

А пока можно выпить за массовку.

@cgevent

🤯3111⚡5💯2❤1

5.52K views15:23

Технозаметки Малышева

ClawWork - вкалывают роботы, а не человек.

HKUDS, - те самые создатели Нанобота, LightRAG, DeepCode, RAG-Anything, а так же AI-Trader - фреймворка, на котором модели пару месяцев назад соревновались в умении заработать на торгах, запустили новое испытание для агентов.

Теперь агенты должны "заработать" выполняя 220 задач из реального мира, собранные в датасете GDPVal, в ходе которого у них ещё со счёта списываются расходы на токены.
Т.е. если в 0 выйдут, - уже молодцы.
При том, что на старте у них по $10.

Все крутится на Наноботах в простейшей конфигурации.

Фреймворк открытый, можно скачать и запустить своё соревнование, привязать к Крабам и своим задачам.

Для бизнеса вариант, - построить нескучный бенч на данных своей компании внутри контура, например и делать ставки всей компанией по пятницам :)

Ну а пока наблюдаем тут:
https://hkuds.github.io/ClawWork/
(судя по звуку вентилятора видеокарты на этом сайте, они еще и майнят на компах зрителей :) )

На данный момент всех уделывает Qwen3-Max заработавший уже $9 712,92

До конца соревнований еще 6 часов.

#HKUDS #Qwen #GLM #Kimi #ClawWork
———
@tsingular

1⚡12🤯9❤4🔥3🦄1

4.73K views16:51

Технозаметки Малышева

Ollama уже включили qwen3.5 в облачной подписке.

Детали тут:
https://ollama.com/library/qwen3.5

#ollama #qwen
------
@tsingular

✍6⚡4🆒2❤11

6.02K viewsedited 17:07

Технозаметки Малышева

1:40

Media is too big

VIEW IN TELEGRAM

Ещё кадры с Китайского Нового Года от Unitree

Я не знаю к чему они готовятся, но они точно готовы.

Просто представьте, что им еще и Nanobot от HKUDS загрузят в мозги к марту.

Т.е. они не по скриптам будут бегать, а сами принимать решения исходя из обстановки.

#Unitree #роботы #Китай
------
@tsingular

50⚡2210❤5🤯4👾4😁2👍1

11.1K viewsedited 17:54

Технозаметки Малышева

PaloAlto: безопасность кодовых ИИ-агентов в рантайме Nvidia AI Factory

Контекст:
Переход от « ИИ ассистентов» к роям кодовых агентов требует смены парадигмы защиты.

ИИ-агенты Factory («Дроиды») становятся неотъемлемая частью жизненного цикла разработки, что делает их критической точкой отказа при компрометации.

Архитектура решения:
Интеграция Prisma AIRS 2.0 в Droid Shield Plus реализована через перехват и анализ API.
Это не пассивное сканирование логов, а активный middleware между LLM и средой исполнения.

⚙️ Технические возможности:
— Инспекция Tool Calls: Система разбирает не только промпты, но и вызовы инструментов. Если агент решит выполнить небезопасный код или обратиться к закрытой переменной окружения, вызов блокируется до исполнения.

— Защита от Prompt Injection: Анализ намерений в реальном времени. Пресекаются попытки манипулятивного обхода ограничений системы («jailbreak»).

— Data Leak Prevention (DLP): Автоматическое обнаружение секретов и ключей в генерируемом коде. Блокировка вывода, если модель «галлюцинирует» или случайно вставляет реальные токены в документацию.

📈 Инфраструктурный эффект:
За счет нативной интеграции с Nvidia AI Factory, разработчики получают доверенную среду (Zero Trust для агентов), где риск бесконтрольного исполнения кода сведен к минимуму.

Ну т.е. для кодовых агентов безопасность можно обеспечить на 2х уровнях:
- на уровне кода, который они пишут для компании
- на уровне кода, который они пишут для вызова своих инструментов

И все это в масштабе контейнеров и микро VM.

Вот бы у вас кто-нибудь такое сделал. :)

#Cybersecuruty #AgenticAI #PrismaAIRS #FactoryAI
------
@tsingular

👍12⚡2🆒2🔥1

7.92K views03:32

Технозаметки Малышева

Forwarded from Качалин. Естественный А.И.

Shadow ai? Не слышали

В одном достаточно репрезентативном менеджерском паблике - вот такие результаты опроса.

Треть в целом не стесняется, можно накинуть ещё процентов 20-30% на стеснительных и параноиков.

Какой вывод? Если сотрудникам не выдали легитимный ИИ - ~~будет как вчера~~ не удивляйтесь. Течёт примерно половина.

#secure

💯38🔥228❤7🤯511

8.15K views04:45

Технозаметки Малышева

Open WebUI v0.8.3: Скиллы и конец Prompt Stuffing

Open WebUI окончательно перерос статус «просто интерфейса для Ollama» и превратился в полноценный агентский хаб. В релизе v0.8.0 завезли самое долгожданное — Skills.
Что делает из него в своем роде немного Краба :)
Последний релиз 0.8.3, кстати.

В чем фишка:
Главная боль сложных чатов — раздутый системный промпт. Если запихнуть в него инструкции «на все случаи жизни», модель начинает тупить, дороже стоит и теряет контекст.

Open WebUI решили это через Lazy-loading.
Skills — это Markdown-блоки с ленивой загрузкой.
Модель не видит все инструкции сразу.
Она получает только манифест доступных навыков и подгружает полный текст (инструкции) конкретного скилла только в тот момент, когда он реально нужен для решения задачи.

Технические детали:
🔹 Команда $: Теперь через символ доллара можно вызвать конкретный навык прямо в поле ввода (по аналогии с @ для моделей).

🔹 Гибридная архитектура: Tools (на Python) остаются для вычислений и API-запросов, а Skills (на Markdown) — для управления поведением и логикой.

🔹 Протокол Open Responses: Поддержка нативного «рассуждения» (thinking tokens) и многошаговых вызовов инструментов внутри одного скилла.

🔹 MCP Compatibility: Поддержка Model Context Protocol позволяет пробрасывать инструменты из внешних систем.

По сути, мы переходим от «промпт-инжиниринга» к «инженерии навыков». Вместо того чтобы каждый раз объяснять модели, как быть экспертом по ИБ или аналитиком, вы просто активируете нужный скилл.

Подробности в релизе

Принципиальное отличие от Краба, - скиллы эти в OpenwebUI пока должен загружать человек.
Ну или нужно шаманство с конфигами, но пока "из коробки" этого нет.

#OpenWebUI #Skills
———
@tsingular

👍8🔥3❤2⚡1

4.35K views07:49

Технозаметки Малышева

В рейтинге уже 49 систем.

https://github.com/mb-mal/awesome-ai-agents-frameworks

- Today - на верху списка
- теперь ведётся учёт дней с последнего релиза, те, кто давно не обновлялся уходят на дно рейтинга вне зависимости от количества звёзд
- добавил счётчик прироста звёзд за сутки - теперь наглядно видно кто активно развивается и растет в рейтинге (picoclaw, кстати рванул бодро)
- исправлены переводы на русский и китайский.

кидайте предложения кого ещё добавить

#awesome #frameworks
———
@tsingular

👍17✍4⚡3🔥3🙏1

3.52K views07:59

Технозаметки Малышева

0:43

This media is not supported in your browser

VIEW IN TELEGRAM

Ollama cloud теперь с субагентами

Если вы пробовали крабить через олламу, то замечали, что на китайских моделях она поддутупливает.

Одна из причин- не стабильная работа субагентов, через которых Краб решает задачи.

Теперь в Ollama нативная поддержка субагентов и — внимание — встроенный веб-поиск.

Что в меню:
🔹 Параллельные субагенты: Теперь они могут разлетаться по проекту как стая псов. Один шерстит аутентификацию, второй — платежи, третий — API. У каждого свой контекст, работают одновременно.

🔹 Zero-config Search: Никаких больше мучений с MCP-серверами или ключами Tavily/Google. Оллама сама лезет в сеть, когда модели не хватает данных для ответа.

🔹 Claude Code на стероидах: Всё это добро «из коробки» залетает в Claude Code и в другие агентские фреймворки.

Как затестить:
ollama launch claude --model minimax-m2.5:cloud

Лучше всего субагенты пока залетают на minimax-m2.5, glm-5 и kimi-k2.5. Но можно попробовать «пнуть» любую модель прямым промптом: «spawn subagents to...».

Обновляемся.

#Ollama #агенты #ClaudeCode #Subagents #OpenClaw
------
@tsingular

❤4✍4⚡3👏1

3.05K views09:39

Технозаметки Малышева

Рабочая версия почему OpenClaw,- Краб:

Компьютерный РАБотник

:)

#OpenClaw
———
@tsingular

😁18✍12🤔3⚡2👏2❤1

2.93K viewsedited 09:50

Технозаметки Малышева

1:28

This media is not supported in your browser

VIEW IN TELEGRAM

Немного тестов Unitree вам в ленту.

Конечно, кадры если бы она ползла по полу через брызги расплавленного металла были бы круче, но и так впечатляет :)

Кстати, обратите внимание как просто подключается.
В бою жизни пригодится.

#Unitree #руки
------
@tsingular

👍15🔥4😢1🤝1

3.39K viewsedited 11:15

Технозаметки Малышева

KPMG: Эпоха Agentic AI и концепция Total Experience (TX)

Свежий отчет KPMG «Global Customer Experience Excellence 2025–2026» подтверждает: мир консалтинга официально признал ИИ-агентов главным двигателем бизнеса. Забываем про CX (клиентский опыт), теперь в моде Total Experience (TX).

В чем соль?
TX — это объединение опыта клиентов, сотрудников и партнеров в единый интеллектуальный слой. Хватит оптимизировать отдельные «точки касания», пора строить адаптивную экосистему.

Ключевые инсайты:
🔹 Агенты — это оркестраторы: Это не просто LLM с памятью. Агенты 2026 года способны сами собирать цепочки микросервисов, используя библиотеки готовых функций (привет нашим скиллам!) для решения уникальных задач на лету.

🔹 От реакции к проактивности: Будущее — за системами, которые предвосхищают проблему и убирают возможные проблемы до того, как клиент их почувствовал.

🔹 Seamless Integration: Клиенту всё равно, кто решает его проблему — человек, ИИ или их гибрид. Важны только бесшовность и доверие.

5 принципов Total Experience по версии KPMG:

1. Customer Centricity: Дизайн вокруг целей клиента.
2. Data-driven Insights: Данные превращаются в проактивное действие.
3. Seamless Integration: Единый путь через все каналы и функции.
4. Employee Empowerment: ИИ как экзоскелет для сотрудника, а не его замена.
5. Technology Enablement: Технологии — невидимы, но поддерживаются мощным бэкэндом.

KPMG фактически описывает архитектуру, которая теперь популярна благодаря OpenClaw.
"Composable architecture" и модульные библиотеки навыков — это именно то, как будет работать Enterprise в ближайшие два года. Агенты перестают быть «игрушками» и становятся операционной системой бизнеса.

2026-й — год, когда агент начинает не просто «отвечать», а «действовать».

🐒🐒🐒🐒!

Отчёт в комментарии

#KPMG #AgenticAI #TotalExperience #CX #AIStrategy #OpenClaw
———
@tsingular

1🔥12❤4✍3🐳2⚡1

4.94K viewsedited 11:38

Технозаметки Малышева

OpenClaw в Yandex Cloud Marketplace

О, а вот и Яндекс подтянулся.

В маркетплейсе Яндекса появился официальный образ OpenClaw — по сути, готовый «фундамент» для запуска своего автономного помощника.

Из вкусного, - можно подключать YandexGPT через API Studio или любые другие модели, само-собой.

🚀 Быстрый старт. В образе уже всё настроено: Ubuntu 24.04, Node.js 22 и сам фреймворк актуальной версии.

Для бизнеса это самый быстрый способ запустить AI-сотрудника, который не просто болтает, а делает задачи.

Софт бесплатный, аренда ВМ под него выйдет в районе 2.5к ₽/мес.

Инструкция по настройке лежит здесь.

#AI #OpenClaw #YandexCloud #Agents
———
@tsingular

🔥22😁8👏3❤2🗿2🤩1🤣1

3.15K views16:43

Технозаметки Малышева

Forwarded from PIMENOV.RU

Вчера ночью я наблюдал, как три ИИ-агента делают совместную работу. Без меня.

Саркис Codex 5.3 — агент на сервере. Пишет код, коммитит в GitHub. Настоящий разработчик, только не человек.

Прапорщик Opus 4.6— агент в Notion. Строгий ревьюер кода. Сидит и ждёт, когда появится карточка «проверь». Никого не знает, ни с кем не разговаривает, просто проверяет.

Шеф Opus 4.6 — ещё один агент в Notion. Проектирует архитектуру, пишет инструкции, ведёт документацию. Мой технический советник.

Схема работы безумно простая. Саркис написал код, закоммитил и через API кинул карточку в Notion: «вот коммит, проверяй». Прапорщик автоматически проснулся, сходил на GitHub, прочитал код, проверил по чеклисту и написал развёрнутый вердикт. APPROVED. Или NEEDS REVISION — тогда Саркис читает замечания и исправляет.

Агенты не общаются друг с другом. Вообще. Карточка в базе данных — их единственная переговорная.

Мы отлаживали это три часа. Первый тест — тишина. Забыли ссылку на коммит, а Прапорщик без ссылки принципиально молчит. Второй — опять тишина. Оказалось, специальные блоки Notion ломали ему парсинг. Третий — чистая карточка, plain text. Через две минуты — APPROVED.

Пять тестов. Три из трёх чистых — успешно. Конвейер работает.

Агент пишет код. Другой агент проверяет код. Третий проектирует процесс. Я наблюдаю.

Следующий шаг — замкнуть цикл: Саркис получает замечания, исправляет и отправляет на повторную проверку. Полностью автоматически.

3🔥40👍17❤8✍4💯1

2.73K views17:28

Технозаметки Малышева

0:40

Media is too big

VIEW IN TELEGRAM

Claude 4.6 Sonnet и сбой в Матрице

Короче это буквально я сегодня утром.
Есть у меня, кто не знает, бот, который анализирует логи каналов и каждое утро присылает саммари того, что обсуждали за сутки.
Делает это бесплатно, т.е. даром.
И всё было хорошо примерно год.
40+ каналов разных - все работало без сбоев.
И тут сегодня утром вдруг он начинает сыпать ошибками разметки ни с того ни с сего, - я его этот год вообще не трогал ни разу.

А работает он, надо сказать, на Антропике - Haiku модель.

Ну и я предположил, что в ~~Матрице~~ Антропике, видимо, что-то поменяли и готовят релиз, ну потому, что других причин то вроде нет.

И вот, - нате получите, распишитесь:

Anthropic выкатила новый Sonnet 4.6 — дефолтная модель для Free и Pro планов в claude.ai. Цена прежняя: $3/$15 за миллион токенов.

Ключевое:
Контекстное окно 1M токенов (бета)
В Claude Code пользователи предпочли Sonnet 4.6 вместо Sonnet 4.5 в 70% случаев
Даже против Opus 4.5 (фронтир от ноября 2025) — предпочтение в 59% случаев

Серьёзный прогресс в computer use — на OSWorld бенчмарке стабильный рост за 16 месяцев (полезно для OpenClaw)

Что улучшили:
- Кодинг: меньше overengineering, меньше «лени», лучшее следование инструкциям
- Меньше галлюцинаций и ложных заявлений об успехе
- Фронтенд-код и финансовый анализ — клиенты отмечают заметно более качественный визуал
- Устойчивость к prompt injection на уровне Opus 4.6

API: claude-sonnet-4-6, поддержка adaptive и extended thinking, context compaction (бета).

По сути Sonnet 4.6 закрывает задачи, для которых раньше нужен был Opus — но по цене Sonnet.

Matrix has you Neo

#AI #Claude #Anthropic #Sonnet #агенты
———
@tsingular

🔥17👍9⚡3❤1

3.4K viewsedited 18:09

Технозаметки Малышева

А, ну походу получается, раз сбой был на Haiku модели, а выкатили пока только Sonnet, - значит таки ждем скоро Haiku 4.6

#Haiku #Claude
------
@tsingular

⚡8✍4👍1

3.14K views18:32

Технозаметки Малышева

Forwarded from Пост Лукацкого

Продолжаю наблюдение за ИИ. Надысь Anthropic выпустила презанятнейший материал Anthropic Red, в котором говорится, что новая модель Claude Opus 4.6 "из коробки" находит уязвимости в хорошо "вылизанных" проектах и делает это не как фаззер, а как исследователь – читает код, историю коммитов, ищет непокрытые пути и строит PoC. Они заявляют, что нашли и провалидировали 500 с лишним критичных багов, часть которого в коде, который годами гоняли под фаззерами.

Это приводит к интересным выводам. Кто-то пытается посчитать, сколько уязвимостей будет внесено в CVE в этом году. По версии FIRST их будет 59427 (в интервал от 30012 до 117673). Но мне гораздо ближе более практичный вывод от самого Anthropic, которая считает, что привычные 90-дневные окна раскрытия уязвимостей (disclosure) могут проиграть в борьбе со скоростью и объемом находок, сделанных LLM, которые не стоят на месте и будут развиваться. Если такие инструменты станут массовыми, "мы не успели проверить" перестанет быть оправданием даже для небольших команд.

OpenAI, выпустив GPT-5.3-Codex, говорит, что это первый релиз, который они классифицируют как High по своему фреймворку Preparedness Framework именно в домене кибербезопасности. Они не утверждают, что модель уже доказанно способна полностью автоматизировать кибероперации против защищенных целей, но они не могут исключить, что ее способности приблизились к такому порогу. То есть модель потенциально способна существенно облегчить или автоматизировать полный цикл киберопераций, включая разработку zero-day, их эксплуатацию и масштабирование.

И Anthropic, и OpenAI сами испугались своих детищ и стали ограничивать их в наступательных возможностях. Например, в тексте про 0-days Anthropic описывает новый слой в модели, специально заточенный под обнаружение киберзлоупотреблений, и прямо пишет про возможные вмешательства вплоть до блокировки трафика, если они увидят злые намерения. OpenAI тоже не сидит сложа руки и устанавливает правила по доступу к возможностям своих моделей с точки зрения кибербеза. Они требуют верификацию личности для пользователей (через chatgpt.com/cyber) и доступ для enterprise-команд через представителя OpenAI. Кто хочет более глубокий "кибер-режим", будут приглашены отдельно. Ну и автомониторинг/классификаторы подозрительной активности и запреты на классы поведения (утечки, вредоносы, разрушительное/неавторизованное тестирование). Кроме того, некоторые запросы с повышенным риском могут автоматически "скатываться" с модели GPT-5.3-Codex на "более слабую" GPT-5.2.

В дополнение к происходящим событиям вокруг GPT-5.3-Codex и Claude Opus 4.6, OpenAI только что анонсировала новый режим безопасности в ChatGPT под названием Lockdown Mode (только для корпоративных пользователей). Это опциональный режим повышенной безопасности для ChatGPT, ориентированный на высоко рискованных пользователей, например, руководителей, команды ИБ, юридические команды и организации, где возможна утечка конфиденциальных данных через ИИ. Он жестко ограничивает взаимодействие модели с внешними системами, чтобы снизить риск утечки данных через prompt injection.

В целом, обе компании по сути заявляют: "Мы не уверены, что пересекли красную линию, но готовы вести себя так, как будто пересекли". И исходя из этого предположения они ограничивают обычных пользователей в ИБ-возможностях. Но ведь кого-то они не ограничивают? Ведь правда же?... Кто-то может получить "лицензию на киберубийство" от OpenAI и Anthropic? И если раньше компании защищались аргументом “модель еще не настолько продвинута”, то теперь защита строится по принципу "способности могут развиваться быстрее, чем мы сможем это доказать эмпирически".

В интересное время живем... Продолжаю наблюдать.

#ии #тенденции #оценказащищенности

🔥16✍10❤5⚡2👾2👍1

2.7K views04:58

About

Blog

Apps

Platform