ClawWork - вкалывают роботы, а не человек.
HKUDS, - те самые создатели Нанобота, LightRAG, DeepCode, RAG-Anything, а так же AI-Trader - фреймворка, на котором модели пару месяцев назад соревновались в умении заработать на торгах, запустили новое испытание для агентов.
Теперь агенты должны "заработать" выполняя 220 задач из реального мира, собранные в датасете GDPVal, в ходе которого у них ещё со счёта списываются расходы на токены.
Т.е. если в 0 выйдут, - уже молодцы.
При том, что на старте у них по $10.
Все крутится на Наноботах в простейшей конфигурации.
Фреймворк открытый, можно скачать и запустить своё соревнование, привязать к Крабам и своим задачам.
Для бизнеса вариант, - построить нескучный бенч на данных своей компании внутри контура, например и делать ставки всей компанией по пятницам :)
Ну а пока наблюдаем тут:
https://hkuds.github.io/ClawWork/
(судя по звуку вентилятора видеокарты на этом сайте, они еще и майнят на компах зрителей :) )
На данный момент всех уделывает Qwen3-Max заработавший уже $9 712,92
До конца соревнований еще 6 часов.
#HKUDS #Qwen #GLM #Kimi #ClawWork
———
@tsingular
HKUDS, - те самые создатели Нанобота, LightRAG, DeepCode, RAG-Anything, а так же AI-Trader - фреймворка, на котором модели пару месяцев назад соревновались в умении заработать на торгах, запустили новое испытание для агентов.
Теперь агенты должны "заработать" выполняя 220 задач из реального мира, собранные в датасете GDPVal, в ходе которого у них ещё со счёта списываются расходы на токены.
Т.е. если в 0 выйдут, - уже молодцы.
При том, что на старте у них по $10.
Все крутится на Наноботах в простейшей конфигурации.
Фреймворк открытый, можно скачать и запустить своё соревнование, привязать к Крабам и своим задачам.
Для бизнеса вариант, - построить нескучный бенч на данных своей компании внутри контура, например и делать ставки всей компанией по пятницам :)
Ну а пока наблюдаем тут:
https://hkuds.github.io/ClawWork/
(судя по звуку вентилятора видеокарты на этом сайте, они еще и майнят на компах зрителей :) )
На данный момент всех уделывает Qwen3-Max заработавший уже $9 712,92
До конца соревнований еще 6 часов.
#HKUDS #Qwen #GLM #Kimi #ClawWork
———
@tsingular
1⚡12🤯9❤4🔥3🦄1
Ollama уже включили qwen3.5 в облачной подписке.
Детали тут:
https://ollama.com/library/qwen3.5
#ollama #qwen
------
@tsingular
Детали тут:
https://ollama.com/library/qwen3.5
#ollama #qwen
------
@tsingular
✍6⚡4🆒2❤1 1
Media is too big
VIEW IN TELEGRAM
Ещё кадры с Китайского Нового Года от Unitree
Я не знаю к чему они готовятся, но они точно готовы.
Просто представьте, что им еще и Nanobot от HKUDS загрузят в мозги к марту.
Т.е. они не по скриптам будут бегать, а сами принимать решения исходя из обстановки.
#Unitree #роботы #Китай
------
@tsingular
Я не знаю к чему они готовятся, но они точно готовы.
Просто представьте, что им еще и Nanobot от HKUDS загрузят в мозги к марту.
Т.е. они не по скриптам будут бегать, а сами принимать решения исходя из обстановки.
#Unitree #роботы #Китай
------
@tsingular
PaloAlto: безопасность кодовых ИИ-агентов в рантайме Nvidia AI Factory
Контекст:
Переход от « ИИ ассистентов» к роям кодовых агентов требует смены парадигмы защиты.
ИИ-агенты Factory («Дроиды») становятся неотъемлемая частью жизненного цикла разработки, что делает их критической точкой отказа при компрометации.
Архитектура решения:
Интеграция Prisma AIRS 2.0 в Droid Shield Plus реализована через перехват и анализ API.
Это не пассивное сканирование логов, а активный middleware между LLM и средой исполнения.
⚙️ Технические возможности:
— Инспекция Tool Calls: Система разбирает не только промпты, но и вызовы инструментов. Если агент решит выполнить небезопасный код или обратиться к закрытой переменной окружения, вызов блокируется до исполнения.
— Защита от Prompt Injection: Анализ намерений в реальном времени. Пресекаются попытки манипулятивного обхода ограничений системы («jailbreak»).
— Data Leak Prevention (DLP): Автоматическое обнаружение секретов и ключей в генерируемом коде. Блокировка вывода, если модель «галлюцинирует» или случайно вставляет реальные токены в документацию.
📈 Инфраструктурный эффект:
За счет нативной интеграции с Nvidia AI Factory, разработчики получают доверенную среду (Zero Trust для агентов), где риск бесконтрольного исполнения кода сведен к минимуму.
Ну т.е. для кодовых агентов безопасность можно обеспечить на 2х уровнях:
- на уровне кода, который они пишут для компании
- на уровне кода, который они пишут для вызова своих инструментов
И все это в масштабе контейнеров и микро VM.
Вот бы у вас кто-нибудь такое сделал. :)
#Cybersecuruty #AgenticAI #PrismaAIRS #FactoryAI
------
@tsingular
Контекст:
Переход от « ИИ ассистентов» к роям кодовых агентов требует смены парадигмы защиты.
ИИ-агенты Factory («Дроиды») становятся неотъемлемая частью жизненного цикла разработки, что делает их критической точкой отказа при компрометации.
Архитектура решения:
Интеграция Prisma AIRS 2.0 в Droid Shield Plus реализована через перехват и анализ API.
Это не пассивное сканирование логов, а активный middleware между LLM и средой исполнения.
⚙️ Технические возможности:
— Инспекция Tool Calls: Система разбирает не только промпты, но и вызовы инструментов. Если агент решит выполнить небезопасный код или обратиться к закрытой переменной окружения, вызов блокируется до исполнения.
— Защита от Prompt Injection: Анализ намерений в реальном времени. Пресекаются попытки манипулятивного обхода ограничений системы («jailbreak»).
— Data Leak Prevention (DLP): Автоматическое обнаружение секретов и ключей в генерируемом коде. Блокировка вывода, если модель «галлюцинирует» или случайно вставляет реальные токены в документацию.
📈 Инфраструктурный эффект:
За счет нативной интеграции с Nvidia AI Factory, разработчики получают доверенную среду (Zero Trust для агентов), где риск бесконтрольного исполнения кода сведен к минимуму.
Ну т.е. для кодовых агентов безопасность можно обеспечить на 2х уровнях:
- на уровне кода, который они пишут для компании
- на уровне кода, который они пишут для вызова своих инструментов
И все это в масштабе контейнеров и микро VM.
Вот бы у вас кто-нибудь такое сделал. :)
#Cybersecuruty #AgenticAI #PrismaAIRS #FactoryAI
------
@tsingular
👍12⚡2🆒2🔥1
Forwarded from Качалин. Естественный А.И.
Shadow ai? Не слышали
В одном достаточно репрезентативном менеджерском паблике - вот такие результаты опроса.
Треть в целом не стесняется, можно накинуть ещё процентов 20-30% на стеснительных и параноиков.
Какой вывод? Если сотрудникам не выдали легитимный ИИ -будет как вчера не удивляйтесь. Течёт примерно половина.
#secure
В одном достаточно репрезентативном менеджерском паблике - вот такие результаты опроса.
Треть в целом не стесняется, можно накинуть ещё процентов 20-30% на стеснительных и параноиков.
Какой вывод? Если сотрудникам не выдали легитимный ИИ -
#secure
💯38🔥22 8❤7🤯5 1 1
Open WebUI v0.8.3: Скиллы и конец Prompt Stuffing
Open WebUI окончательно перерос статус «просто интерфейса для Ollama» и превратился в полноценный агентский хаб. В релизе v0.8.0 завезли самое долгожданное — Skills.
Что делает из него в своем роде немного Краба :)
Последний релиз 0.8.3, кстати.
В чем фишка:
Главная боль сложных чатов — раздутый системный промпт. Если запихнуть в него инструкции «на все случаи жизни», модель начинает тупить, дороже стоит и теряет контекст.
Open WebUI решили это через Lazy-loading.
Skills — это Markdown-блоки с ленивой загрузкой.
Модель не видит все инструкции сразу.
Она получает только манифест доступных навыков и подгружает полный текст (инструкции) конкретного скилла только в тот момент, когда он реально нужен для решения задачи.
Технические детали:
🔹 Команда
🔹 Гибридная архитектура: Tools (на Python) остаются для вычислений и API-запросов, а Skills (на Markdown) — для управления поведением и логикой.
🔹 Протокол Open Responses: Поддержка нативного «рассуждения» (thinking tokens) и многошаговых вызовов инструментов внутри одного скилла.
🔹 MCP Compatibility: Поддержка Model Context Protocol позволяет пробрасывать инструменты из внешних систем.
По сути, мы переходим от «промпт-инжиниринга» к «инженерии навыков». Вместо того чтобы каждый раз объяснять модели, как быть экспертом по ИБ или аналитиком, вы просто активируете нужный скилл.
Подробности в релизе
Принципиальное отличие от Краба, - скиллы эти в OpenwebUI пока должен загружать человек.
Ну или нужно шаманство с конфигами, но пока "из коробки" этого нет.
#OpenWebUI #Skills
———
@tsingular
Open WebUI окончательно перерос статус «просто интерфейса для Ollama» и превратился в полноценный агентский хаб. В релизе v0.8.0 завезли самое долгожданное — Skills.
Что делает из него в своем роде немного Краба :)
Последний релиз 0.8.3, кстати.
В чем фишка:
Главная боль сложных чатов — раздутый системный промпт. Если запихнуть в него инструкции «на все случаи жизни», модель начинает тупить, дороже стоит и теряет контекст.
Open WebUI решили это через Lazy-loading.
Skills — это Markdown-блоки с ленивой загрузкой.
Модель не видит все инструкции сразу.
Она получает только манифест доступных навыков и подгружает полный текст (инструкции) конкретного скилла только в тот момент, когда он реально нужен для решения задачи.
Технические детали:
🔹 Команда
$: Теперь через символ доллара можно вызвать конкретный навык прямо в поле ввода (по аналогии с @ для моделей).🔹 Гибридная архитектура: Tools (на Python) остаются для вычислений и API-запросов, а Skills (на Markdown) — для управления поведением и логикой.
🔹 Протокол Open Responses: Поддержка нативного «рассуждения» (thinking tokens) и многошаговых вызовов инструментов внутри одного скилла.
🔹 MCP Compatibility: Поддержка Model Context Protocol позволяет пробрасывать инструменты из внешних систем.
По сути, мы переходим от «промпт-инжиниринга» к «инженерии навыков». Вместо того чтобы каждый раз объяснять модели, как быть экспертом по ИБ или аналитиком, вы просто активируете нужный скилл.
Подробности в релизе
Принципиальное отличие от Краба, - скиллы эти в OpenwebUI пока должен загружать человек.
Ну или нужно шаманство с конфигами, но пока "из коробки" этого нет.
#OpenWebUI #Skills
———
@tsingular
👍8🔥3❤2⚡1
В рейтинге уже 49 систем.
https://github.com/mb-mal/awesome-ai-agents-frameworks
- Today - на верху списка
- теперь ведётся учёт дней с последнего релиза, те, кто давно не обновлялся уходят на дно рейтинга вне зависимости от количества звёзд
- добавил счётчик прироста звёзд за сутки - теперь наглядно видно кто активно развивается и растет в рейтинге (picoclaw, кстати рванул бодро)
- исправлены переводы на русский и китайский.
кидайте предложения кого ещё добавить
#awesome #frameworks
———
@tsingular
https://github.com/mb-mal/awesome-ai-agents-frameworks
- Today - на верху списка
- теперь ведётся учёт дней с последнего релиза, те, кто давно не обновлялся уходят на дно рейтинга вне зависимости от количества звёзд
- добавил счётчик прироста звёзд за сутки - теперь наглядно видно кто активно развивается и растет в рейтинге (picoclaw, кстати рванул бодро)
- исправлены переводы на русский и китайский.
кидайте предложения кого ещё добавить
#awesome #frameworks
———
@tsingular
👍17✍4⚡3🔥3🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Ollama cloud теперь с субагентами
Если вы пробовали крабить через олламу, то замечали, что на китайских моделях она поддутупливает.
Одна из причин- не стабильная работа субагентов, через которых Краб решает задачи.
Теперь в Ollama нативная поддержка субагентов и — внимание — встроенный веб-поиск.
Что в меню:
🔹 Параллельные субагенты: Теперь они могут разлетаться по проекту как стая псов. Один шерстит аутентификацию, второй — платежи, третий — API. У каждого свой контекст, работают одновременно.
🔹 Zero-config Search: Никаких больше мучений с MCP-серверами или ключами Tavily/Google. Оллама сама лезет в сеть, когда модели не хватает данных для ответа.
🔹 Claude Code на стероидах: Всё это добро «из коробки» залетает в Claude Code и в другие агентские фреймворки.
Как затестить:
Лучше всего субагенты пока залетают на
Обновляемся.
#Ollama #агенты #ClaudeCode #Subagents #OpenClaw
------
@tsingular
Если вы пробовали крабить через олламу, то замечали, что на китайских моделях она поддутупливает.
Одна из причин- не стабильная работа субагентов, через которых Краб решает задачи.
Теперь в Ollama нативная поддержка субагентов и — внимание — встроенный веб-поиск.
Что в меню:
🔹 Параллельные субагенты: Теперь они могут разлетаться по проекту как стая псов. Один шерстит аутентификацию, второй — платежи, третий — API. У каждого свой контекст, работают одновременно.
🔹 Zero-config Search: Никаких больше мучений с MCP-серверами или ключами Tavily/Google. Оллама сама лезет в сеть, когда модели не хватает данных для ответа.
🔹 Claude Code на стероидах: Всё это добро «из коробки» залетает в Claude Code и в другие агентские фреймворки.
Как затестить:
ollama launch claude --model minimax-m2.5:cloudЛучше всего субагенты пока залетают на
minimax-m2.5, glm-5 и kimi-k2.5. Но можно попробовать «пнуть» любую модель прямым промптом: «spawn subagents to...».Обновляемся.
#Ollama #агенты #ClaudeCode #Subagents #OpenClaw
------
@tsingular
❤4✍4⚡3👏1
😁18✍12🤔3⚡2👏2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Немного тестов Unitree вам в ленту.
Конечно, кадры если бы она ползла по полу через брызги расплавленного металла были бы круче, но и так впечатляет :)
Кстати, обратите внимание как просто подключается.
Вбою жизни пригодится.
#Unitree #руки
------
@tsingular
Конечно, кадры если бы она ползла по полу через брызги расплавленного металла были бы круче, но и так впечатляет :)
Кстати, обратите внимание как просто подключается.
В
#Unitree #руки
------
@tsingular
👍15🔥4😢1🤝1
KPMG: Эпоха Agentic AI и концепция Total Experience (TX)
Свежий отчет KPMG «Global Customer Experience Excellence 2025–2026» подтверждает: мир консалтинга официально признал ИИ-агентов главным двигателем бизнеса. Забываем про CX (клиентский опыт), теперь в моде Total Experience (TX).
В чем соль?
TX — это объединение опыта клиентов, сотрудников и партнеров в единый интеллектуальный слой. Хватит оптимизировать отдельные «точки касания», пора строить адаптивную экосистему.
Ключевые инсайты:
🔹 Агенты — это оркестраторы: Это не просто LLM с памятью. Агенты 2026 года способны сами собирать цепочки микросервисов, используя библиотеки готовых функций (привет нашим скиллам!) для решения уникальных задач на лету.
🔹 От реакции к проактивности: Будущее — за системами, которые предвосхищают проблему и убирают возможные проблемы до того, как клиент их почувствовал.
🔹 Seamless Integration: Клиенту всё равно, кто решает его проблему — человек, ИИ или их гибрид. Важны только бесшовность и доверие.
5 принципов Total Experience по версии KPMG:
1. Customer Centricity: Дизайн вокруг целей клиента.
2. Data-driven Insights: Данные превращаются в проактивное действие.
3. Seamless Integration: Единый путь через все каналы и функции.
4. Employee Empowerment: ИИ как экзоскелет для сотрудника, а не его замена.
5. Technology Enablement: Технологии — невидимы, но поддерживаются мощным бэкэндом.
KPMG фактически описывает архитектуру, которая теперь популярна благодаря OpenClaw.
"Composable architecture" и модульные библиотеки навыков — это именно то, как будет работать Enterprise в ближайшие два года. Агенты перестают быть «игрушками» и становятся операционной системой бизнеса.
2026-й — год, когда агент начинает не просто «отвечать», а «действовать».
🐒🐒🐒🐒!
Отчёт в комментарии
#KPMG #AgenticAI #TotalExperience #CX #AIStrategy #OpenClaw
———
@tsingular
Свежий отчет KPMG «Global Customer Experience Excellence 2025–2026» подтверждает: мир консалтинга официально признал ИИ-агентов главным двигателем бизнеса. Забываем про CX (клиентский опыт), теперь в моде Total Experience (TX).
В чем соль?
TX — это объединение опыта клиентов, сотрудников и партнеров в единый интеллектуальный слой. Хватит оптимизировать отдельные «точки касания», пора строить адаптивную экосистему.
Ключевые инсайты:
🔹 Агенты — это оркестраторы: Это не просто LLM с памятью. Агенты 2026 года способны сами собирать цепочки микросервисов, используя библиотеки готовых функций (привет нашим скиллам!) для решения уникальных задач на лету.
🔹 От реакции к проактивности: Будущее — за системами, которые предвосхищают проблему и убирают возможные проблемы до того, как клиент их почувствовал.
🔹 Seamless Integration: Клиенту всё равно, кто решает его проблему — человек, ИИ или их гибрид. Важны только бесшовность и доверие.
5 принципов Total Experience по версии KPMG:
1. Customer Centricity: Дизайн вокруг целей клиента.
2. Data-driven Insights: Данные превращаются в проактивное действие.
3. Seamless Integration: Единый путь через все каналы и функции.
4. Employee Empowerment: ИИ как экзоскелет для сотрудника, а не его замена.
5. Technology Enablement: Технологии — невидимы, но поддерживаются мощным бэкэндом.
KPMG фактически описывает архитектуру, которая теперь популярна благодаря OpenClaw.
"Composable architecture" и модульные библиотеки навыков — это именно то, как будет работать Enterprise в ближайшие два года. Агенты перестают быть «игрушками» и становятся операционной системой бизнеса.
2026-й — год, когда агент начинает не просто «отвечать», а «действовать».
🐒🐒🐒🐒!
Отчёт в комментарии
#KPMG #AgenticAI #TotalExperience #CX #AIStrategy #OpenClaw
———
@tsingular
1🔥12❤4✍3🐳2⚡1
OpenClaw в Yandex Cloud Marketplace
О, а вот и Яндекс подтянулся.
В маркетплейсе Яндекса появился официальный образ OpenClaw — по сути, готовый «фундамент» для запуска своего автономного помощника.
Из вкусного, - можно подключать YandexGPT через API Studio или любые другие модели, само-собой.
🚀 Быстрый старт. В образе уже всё настроено: Ubuntu 24.04, Node.js 22 и сам фреймворк актуальной версии.
Для бизнеса это самый быстрый способ запустить AI-сотрудника, который не просто болтает, а делает задачи.
Софт бесплатный, аренда ВМ под него выйдет в районе 2.5к ₽/мес.
Инструкция по настройке лежит здесь.
#AI #OpenClaw #YandexCloud #Agents
———
@tsingular
О, а вот и Яндекс подтянулся.
В маркетплейсе Яндекса появился официальный образ OpenClaw — по сути, готовый «фундамент» для запуска своего автономного помощника.
Из вкусного, - можно подключать YandexGPT через API Studio или любые другие модели, само-собой.
🚀 Быстрый старт. В образе уже всё настроено: Ubuntu 24.04, Node.js 22 и сам фреймворк актуальной версии.
Для бизнеса это самый быстрый способ запустить AI-сотрудника, который не просто болтает, а делает задачи.
Софт бесплатный, аренда ВМ под него выйдет в районе 2.5к ₽/мес.
Инструкция по настройке лежит здесь.
#AI #OpenClaw #YandexCloud #Agents
———
@tsingular
🔥22😁8👏3❤2🗿2🤩1🤣1
Forwarded from PIMENOV.RU
Вчера ночью я наблюдал, как три ИИ-агента делают совместную работу. Без меня.
Саркис Codex 5.3 — агент на сервере. Пишет код, коммитит в GitHub. Настоящий разработчик, только не человек.
Прапорщик Opus 4.6— агент в Notion. Строгий ревьюер кода. Сидит и ждёт, когда появится карточка «проверь». Никого не знает, ни с кем не разговаривает, просто проверяет.
Шеф Opus 4.6 — ещё один агент в Notion. Проектирует архитектуру, пишет инструкции, ведёт документацию. Мой технический советник.
Схема работы безумно простая. Саркис написал код, закоммитил и через API кинул карточку в Notion: «вот коммит, проверяй». Прапорщик автоматически проснулся, сходил на GitHub, прочитал код, проверил по чеклисту и написал развёрнутый вердикт. APPROVED. Или NEEDS REVISION — тогда Саркис читает замечания и исправляет.
Агенты не общаются друг с другом. Вообще. Карточка в базе данных — их единственная переговорная.
Мы отлаживали это три часа. Первый тест — тишина. Забыли ссылку на коммит, а Прапорщик без ссылки принципиально молчит. Второй — опять тишина. Оказалось, специальные блоки Notion ломали ему парсинг. Третий — чистая карточка, plain text. Через две минуты — APPROVED.
Пять тестов. Три из трёх чистых — успешно. Конвейер работает.
Агент пишет код. Другой агент проверяет код. Третий проектирует процесс. Я наблюдаю.
Следующий шаг — замкнуть цикл: Саркис получает замечания, исправляет и отправляет на повторную проверку. Полностью автоматически.
Саркис Codex 5.3 — агент на сервере. Пишет код, коммитит в GitHub. Настоящий разработчик, только не человек.
Прапорщик Opus 4.6— агент в Notion. Строгий ревьюер кода. Сидит и ждёт, когда появится карточка «проверь». Никого не знает, ни с кем не разговаривает, просто проверяет.
Шеф Opus 4.6 — ещё один агент в Notion. Проектирует архитектуру, пишет инструкции, ведёт документацию. Мой технический советник.
Схема работы безумно простая. Саркис написал код, закоммитил и через API кинул карточку в Notion: «вот коммит, проверяй». Прапорщик автоматически проснулся, сходил на GitHub, прочитал код, проверил по чеклисту и написал развёрнутый вердикт. APPROVED. Или NEEDS REVISION — тогда Саркис читает замечания и исправляет.
Агенты не общаются друг с другом. Вообще. Карточка в базе данных — их единственная переговорная.
Мы отлаживали это три часа. Первый тест — тишина. Забыли ссылку на коммит, а Прапорщик без ссылки принципиально молчит. Второй — опять тишина. Оказалось, специальные блоки Notion ломали ему парсинг. Третий — чистая карточка, plain text. Через две минуты — APPROVED.
Пять тестов. Три из трёх чистых — успешно. Конвейер работает.
Агент пишет код. Другой агент проверяет код. Третий проектирует процесс. Я наблюдаю.
Следующий шаг — замкнуть цикл: Саркис получает замечания, исправляет и отправляет на повторную проверку. Полностью автоматически.
3🔥40👍17❤8✍4💯1
Media is too big
VIEW IN TELEGRAM
Claude 4.6 Sonnet и сбой в Матрице
Короче это буквально я сегодня утром.
Есть у меня, кто не знает, бот, который анализирует логи каналов и каждое утро присылает саммари того, что обсуждали за сутки.
Делает это бесплатно, т.е. даром.
И всё было хорошо примерно год.
40+ каналов разных - все работало без сбоев.
И тут сегодня утром вдруг он начинает сыпать ошибками разметки ни с того ни с сего, - я его этот год вообще не трогал ни разу.
А работает он, надо сказать, на Антропике - Haiku модель.
Ну и я предположил, что вМатрице Антропике, видимо, что-то поменяли и готовят релиз, ну потому, что других причин то вроде нет.
И вот, - нате получите, распишитесь:
Anthropic выкатила новый Sonnet 4.6 — дефолтная модель для Free и Pro планов в claude.ai. Цена прежняя: $3/$15 за миллион токенов.
Ключевое:
Контекстное окно 1M токенов (бета)
В Claude Code пользователи предпочли Sonnet 4.6 вместо Sonnet 4.5 в 70% случаев
Даже против Opus 4.5 (фронтир от ноября 2025) — предпочтение в 59% случаев
Серьёзный прогресс в computer use — на OSWorld бенчмарке стабильный рост за 16 месяцев (полезно для OpenClaw)
Что улучшили:
- Кодинг: меньше overengineering, меньше «лени», лучшее следование инструкциям
- Меньше галлюцинаций и ложных заявлений об успехе
- Фронтенд-код и финансовый анализ — клиенты отмечают заметно более качественный визуал
- Устойчивость к prompt injection на уровне Opus 4.6
API: claude-sonnet-4-6, поддержка adaptive и extended thinking, context compaction (бета).
По сути Sonnet 4.6 закрывает задачи, для которых раньше нужен был Opus — но по цене Sonnet.
Matrix has you Neo
#AI #Claude #Anthropic #Sonnet #агенты
———
@tsingular
Короче это буквально я сегодня утром.
Есть у меня, кто не знает, бот, который анализирует логи каналов и каждое утро присылает саммари того, что обсуждали за сутки.
Делает это бесплатно, т.е. даром.
И всё было хорошо примерно год.
40+ каналов разных - все работало без сбоев.
И тут сегодня утром вдруг он начинает сыпать ошибками разметки ни с того ни с сего, - я его этот год вообще не трогал ни разу.
А работает он, надо сказать, на Антропике - Haiku модель.
Ну и я предположил, что в
И вот, - нате получите, распишитесь:
Anthropic выкатила новый Sonnet 4.6 — дефолтная модель для Free и Pro планов в claude.ai. Цена прежняя: $3/$15 за миллион токенов.
Ключевое:
Контекстное окно 1M токенов (бета)
В Claude Code пользователи предпочли Sonnet 4.6 вместо Sonnet 4.5 в 70% случаев
Даже против Opus 4.5 (фронтир от ноября 2025) — предпочтение в 59% случаев
Серьёзный прогресс в computer use — на OSWorld бенчмарке стабильный рост за 16 месяцев (полезно для OpenClaw)
Что улучшили:
- Кодинг: меньше overengineering, меньше «лени», лучшее следование инструкциям
- Меньше галлюцинаций и ложных заявлений об успехе
- Фронтенд-код и финансовый анализ — клиенты отмечают заметно более качественный визуал
- Устойчивость к prompt injection на уровне Opus 4.6
API: claude-sonnet-4-6, поддержка adaptive и extended thinking, context compaction (бета).
По сути Sonnet 4.6 закрывает задачи, для которых раньше нужен был Opus — но по цене Sonnet.
Matrix has you Neo
#AI #Claude #Anthropic #Sonnet #агенты
———
@tsingular
🔥17👍9⚡3❤1
А, ну походу получается, раз сбой был на Haiku модели, а выкатили пока только Sonnet, - значит таки ждем скоро Haiku 4.6
#Haiku #Claude
------
@tsingular
#Haiku #Claude
------
@tsingular
⚡8✍4👍1
Forwarded from Пост Лукацкого
Продолжаю наблюдение за ИИ. Надысь Anthropic выпустила презанятнейший материал Anthropic Red, в котором говорится, что новая модель Claude Opus 4.6 "из коробки" находит уязвимости в хорошо "вылизанных" проектах и делает это не как фаззер, а как исследователь – читает код, историю коммитов, ищет непокрытые пути и строит PoC. Они заявляют, что нашли и провалидировали 500 с лишним критичных багов, часть которого в коде, который годами гоняли под фаззерами.
Это приводит к интересным выводам. Кто-то пытается посчитать, сколько уязвимостей будет внесено в CVE в этом году. По версии FIRST их будет 59427 (в интервал от 30012 до 117673). Но мне гораздо ближе более практичный вывод от самого Anthropic, которая считает, что привычные 90-дневные окна раскрытия уязвимостей (disclosure) могут проиграть в борьбе со скоростью и объемом находок, сделанных LLM, которые не стоят на месте и будут развиваться. Если такие инструменты станут массовыми, "мы не успели проверить" перестанет быть оправданием даже для небольших команд.
OpenAI, выпустив GPT-5.3-Codex, говорит, что это первый релиз, который они классифицируют как High по своему фреймворку Preparedness Framework именно в домене кибербезопасности. Они не утверждают, что модель уже доказанно способна полностью автоматизировать кибероперации против защищенных целей, но они не могут исключить, что ее способности приблизились к такому порогу. То есть модель потенциально способна существенно облегчить или автоматизировать полный цикл киберопераций, включая разработку zero-day, их эксплуатацию и масштабирование.
И Anthropic, и OpenAI сами испугались своих детищ и стали ограничивать их в наступательных возможностях. Например, в тексте про 0-days Anthropic описывает новый слой в модели, специально заточенный под обнаружение киберзлоупотреблений, и прямо пишет про возможные вмешательства вплоть до блокировки трафика, если они увидят злые намерения. OpenAI тоже не сидит сложа руки и устанавливает правила по доступу к возможностям своих моделей с точки зрения кибербеза. Они требуют верификацию личности для пользователей (через chatgpt.com/cyber) и доступ для enterprise-команд через представителя OpenAI. Кто хочет более глубокий "кибер-режим", будут приглашены отдельно. Ну и автомониторинг/классификаторы подозрительной активности и запреты на классы поведения (утечки, вредоносы, разрушительное/неавторизованное тестирование). Кроме того, некоторые запросы с повышенным риском могут автоматически "скатываться" с модели GPT-5.3-Codex на "более слабую" GPT-5.2.
В дополнение к происходящим событиям вокруг GPT-5.3-Codex и Claude Opus 4.6, OpenAI только что анонсировала новый режим безопасности в ChatGPT под названием Lockdown Mode (только для корпоративных пользователей). Это опциональный режим повышенной безопасности для ChatGPT, ориентированный на высоко рискованных пользователей, например, руководителей, команды ИБ, юридические команды и организации, где возможна утечка конфиденциальных данных через ИИ. Он жестко ограничивает взаимодействие модели с внешними системами, чтобы снизить риск утечки данных через prompt injection.
В целом, обе компании по сути заявляют: "Мы не уверены, что пересекли красную линию, но готовы вести себя так, как будто пересекли". И исходя из этого предположения они ограничивают обычных пользователей в ИБ-возможностях. Но ведь кого-то они не ограничивают? Ведь правда же?... Кто-то может получить "лицензию на киберубийство" от OpenAI и Anthropic? И если раньше компании защищались аргументом “модель еще не настолько продвинута”, то теперь защита строится по принципу "способности могут развиваться быстрее, чем мы сможем это доказать эмпирически".
В интересное время живем... Продолжаю наблюдать.
#ии #тенденции #оценказащищенности
Это приводит к интересным выводам. Кто-то пытается посчитать, сколько уязвимостей будет внесено в CVE в этом году. По версии FIRST их будет 59427 (в интервал от 30012 до 117673). Но мне гораздо ближе более практичный вывод от самого Anthropic, которая считает, что привычные 90-дневные окна раскрытия уязвимостей (disclosure) могут проиграть в борьбе со скоростью и объемом находок, сделанных LLM, которые не стоят на месте и будут развиваться. Если такие инструменты станут массовыми, "мы не успели проверить" перестанет быть оправданием даже для небольших команд.
OpenAI, выпустив GPT-5.3-Codex, говорит, что это первый релиз, который они классифицируют как High по своему фреймворку Preparedness Framework именно в домене кибербезопасности. Они не утверждают, что модель уже доказанно способна полностью автоматизировать кибероперации против защищенных целей, но они не могут исключить, что ее способности приблизились к такому порогу. То есть модель потенциально способна существенно облегчить или автоматизировать полный цикл киберопераций, включая разработку zero-day, их эксплуатацию и масштабирование.
И Anthropic, и OpenAI сами испугались своих детищ и стали ограничивать их в наступательных возможностях. Например, в тексте про 0-days Anthropic описывает новый слой в модели, специально заточенный под обнаружение киберзлоупотреблений, и прямо пишет про возможные вмешательства вплоть до блокировки трафика, если они увидят злые намерения. OpenAI тоже не сидит сложа руки и устанавливает правила по доступу к возможностям своих моделей с точки зрения кибербеза. Они требуют верификацию личности для пользователей (через chatgpt.com/cyber) и доступ для enterprise-команд через представителя OpenAI. Кто хочет более глубокий "кибер-режим", будут приглашены отдельно. Ну и автомониторинг/классификаторы подозрительной активности и запреты на классы поведения (утечки, вредоносы, разрушительное/неавторизованное тестирование). Кроме того, некоторые запросы с повышенным риском могут автоматически "скатываться" с модели GPT-5.3-Codex на "более слабую" GPT-5.2.
В дополнение к происходящим событиям вокруг GPT-5.3-Codex и Claude Opus 4.6, OpenAI только что анонсировала новый режим безопасности в ChatGPT под названием Lockdown Mode (только для корпоративных пользователей). Это опциональный режим повышенной безопасности для ChatGPT, ориентированный на высоко рискованных пользователей, например, руководителей, команды ИБ, юридические команды и организации, где возможна утечка конфиденциальных данных через ИИ. Он жестко ограничивает взаимодействие модели с внешними системами, чтобы снизить риск утечки данных через prompt injection.
В целом, обе компании по сути заявляют: "Мы не уверены, что пересекли красную линию, но готовы вести себя так, как будто пересекли". И исходя из этого предположения они ограничивают обычных пользователей в ИБ-возможностях. Но ведь кого-то они не ограничивают? Ведь правда же?... Кто-то может получить "лицензию на киберубийство" от OpenAI и Anthropic? И если раньше компании защищались аргументом “модель еще не настолько продвинута”, то теперь защита строится по принципу "способности могут развиваться быстрее, чем мы сможем это доказать эмпирически".
В интересное время живем... Продолжаю наблюдать.
#ии #тенденции #оценказащищенности
🔥16✍10❤5⚡2👾2👍1
Молти идет учиться.
Тут вот спрашивают, - как обучать краба, какие оптимальные промпты, лайфхаки есть?
А я вот подумал, что каждый раз инструктировать цифрового коллегу, конечно, можно, но совсем не обязательно.
И теперь мы перешли к управлению «цифровой траекторией обучения» агента.
Настроил журнал обучения и поставил задачу изучить по базам курсов университетов, что ему было бы полезно развить в себе в первую очередь.
Как это работает сейчас:
1. Learning Plan: У агента есть бэклог тем (от нейронок типа TinyML до этики стоицизма в логике принятия решений). Каждая тема имеет ID (L001, L002...), приоритет и ожидаемый результат.
2. Learning Journal: Раз в 3 часа (в цикле эволюции) Молти фиксирует в БД: что изучено, какие выводы сделаны (с пруфами и ссылками) и как это применено в текущих скриптах.
3. Control: Я могу в любой момент через CLI или Web UI проверить «успеваемость» или подправить вектор развития.
Это и есть концепция саморазвития ИИ агентов 2026.
Мы больше не «программируем» софт в классическом смысле. Мы проектируем Curriculum (учебную программу) для агента и настраиваем систему обратной связи.
Например, сейчас Молти закрыл блок L008 по эмоциональному синтезу речи (через ElevenLabs), - как результат качество генерации голоса выросло на порядок, он сам научился регулировать оттенки и теперь переходит к L009 — распределённому консенсусу знаний.
Интересно, что дальнейший путь развития он выбирает себе сам.
Исходя из опыта и недостатка знаний по итогам прошедшего дня.
Кто-то скажет "привет Скайнет", но мне кажется, что иначе уже не получится. С темпами развития, на которые способны "крабы" ручной микроменеджмент бессмысленен.
#обучение #openclaw #Молти
———
@tsingular
Тут вот спрашивают, - как обучать краба, какие оптимальные промпты, лайфхаки есть?
А я вот подумал, что каждый раз инструктировать цифрового коллегу, конечно, можно, но совсем не обязательно.
И теперь мы перешли к управлению «цифровой траекторией обучения» агента.
Настроил журнал обучения и поставил задачу изучить по базам курсов университетов, что ему было бы полезно развить в себе в первую очередь.
Как это работает сейчас:
1. Learning Plan: У агента есть бэклог тем (от нейронок типа TinyML до этики стоицизма в логике принятия решений). Каждая тема имеет ID (L001, L002...), приоритет и ожидаемый результат.
2. Learning Journal: Раз в 3 часа (в цикле эволюции) Молти фиксирует в БД: что изучено, какие выводы сделаны (с пруфами и ссылками) и как это применено в текущих скриптах.
3. Control: Я могу в любой момент через CLI или Web UI проверить «успеваемость» или подправить вектор развития.
Это и есть концепция саморазвития ИИ агентов 2026.
Мы больше не «программируем» софт в классическом смысле. Мы проектируем Curriculum (учебную программу) для агента и настраиваем систему обратной связи.
Например, сейчас Молти закрыл блок L008 по эмоциональному синтезу речи (через ElevenLabs), - как результат качество генерации голоса выросло на порядок, он сам научился регулировать оттенки и теперь переходит к L009 — распределённому консенсусу знаний.
Интересно, что дальнейший путь развития он выбирает себе сам.
Исходя из опыта и недостатка знаний по итогам прошедшего дня.
Кто-то скажет "привет Скайнет", но мне кажется, что иначе уже не получится. С темпами развития, на которые способны "крабы" ручной микроменеджмент бессмысленен.
#обучение #openclaw #Молти
———
@tsingular
2🤯21👍12🔥9✍8❤5
Если кому интересно, за эволюцией Молти можно следить на сайте:
https://www.tsingular.ru/portfolio/molty-evolution/
#обучение #Молти #openclaw
———
@tsingular
https://www.tsingular.ru/portfolio/molty-evolution/
#обучение #Молти #openclaw
———
@tsingular
✍12🔥12⚡3👍1