Anthropic выпустил Claude Opus 4.8: честность, скорость, параллельные агенты
Меньше шести недель прошло после релиза Opus 4.7 — и уже 4.8.
Цена не изменилась: $15/млн генерации, $75/млн выходных (fast mode: $10/$50). Но под капотом серьёзные доработки.
📊 Бенчмарки: Агентное кодирование 64.3→69.2%.
Мультидисциплинарное рассуждение с инструментами 54.7→57.9%.
Компьютерное использование 82.8→83.4%.
Работа со знаниями 1753→1890.
Финансовый анализ 51.5→53.9%.
На Super-Agent бенчмарке Opus 4.8 — единственная модель, завершившая все кейсы end-to-end, обойдя GPT-5.5 при паритете по стоимости.
🧠 Честность как фича: Opus 4.8 в 4 раза реже пропускает баги в собственном коде по сравнению с 4.7.
Модель активнее отмечает неуверенность и реже делает неподтверждённые утверждения.
Для автономных агентов это критично: модель, которая честно говорит «я не уверен», а не уверенно врёт — фундамент для продакшена.
⚡ Fast mode: 2.5× скорость, при этом в 3 раза дешевле, чем у предыдущих моделей. Для задач, где скорость важнее глубины рассуждений, это значительное удешевление.
🔀 Dynamic workflows: Новый режим в Claude Code (research preview). Модель планирует работу и запускает сотни параллельных субагентов в одной сессии.
Сценарий для примера: миграция кодовой базы на сотни тысяч строк — от старта до мержа, с существующим тест-сьютом как критерием качества.
🎛️ Контроль усилий:
Ползунок low→high→extra→max.
High — дефолт.
Extra — для сложных задач и длинных асинхронных воркфлоу.
Anthropic подняли рейт-лимиты в Claude Code под возросшее потребление токенов.
🔧 Messages API: System entries теперь можно вставлять прямо в массив сообщений mid-task без поломки prompt cache. Обновление разрешений, бюджетов токенов, контекста среды — всё на лету, без user turn.
🔮 Будущее: Anthropic так же обещает Mythos-class модели для всех клиентов «в ближайшие недели». Параллельно идут работы над моделями дешевле Opus с сопоставимыми возможностями.
#Anthropic #Claude #Opus #ИИ #агенты #кодинг #Mythos
───
@tsingular
Меньше шести недель прошло после релиза Opus 4.7 — и уже 4.8.
Цена не изменилась: $15/млн генерации, $75/млн выходных (fast mode: $10/$50). Но под капотом серьёзные доработки.
📊 Бенчмарки: Агентное кодирование 64.3→69.2%.
Мультидисциплинарное рассуждение с инструментами 54.7→57.9%.
Компьютерное использование 82.8→83.4%.
Работа со знаниями 1753→1890.
Финансовый анализ 51.5→53.9%.
На Super-Agent бенчмарке Opus 4.8 — единственная модель, завершившая все кейсы end-to-end, обойдя GPT-5.5 при паритете по стоимости.
🧠 Честность как фича: Opus 4.8 в 4 раза реже пропускает баги в собственном коде по сравнению с 4.7.
Модель активнее отмечает неуверенность и реже делает неподтверждённые утверждения.
Для автономных агентов это критично: модель, которая честно говорит «я не уверен», а не уверенно врёт — фундамент для продакшена.
⚡ Fast mode: 2.5× скорость, при этом в 3 раза дешевле, чем у предыдущих моделей. Для задач, где скорость важнее глубины рассуждений, это значительное удешевление.
🔀 Dynamic workflows: Новый режим в Claude Code (research preview). Модель планирует работу и запускает сотни параллельных субагентов в одной сессии.
Сценарий для примера: миграция кодовой базы на сотни тысяч строк — от старта до мержа, с существующим тест-сьютом как критерием качества.
🎛️ Контроль усилий:
Ползунок low→high→extra→max.
High — дефолт.
Extra — для сложных задач и длинных асинхронных воркфлоу.
Anthropic подняли рейт-лимиты в Claude Code под возросшее потребление токенов.
🔧 Messages API: System entries теперь можно вставлять прямо в массив сообщений mid-task без поломки prompt cache. Обновление разрешений, бюджетов токенов, контекста среды — всё на лету, без user turn.
🔮 Будущее: Anthropic так же обещает Mythos-class модели для всех клиентов «в ближайшие недели». Параллельно идут работы над моделями дешевле Opus с сопоставимыми возможностями.
#Anthropic #Claude #Opus #ИИ #агенты #кодинг #Mythos
───
@tsingular
⚡10❤6🏆5🔥1🐳1 1
Hermes Agent v0.15.0: The Velocity Release
1,302 коммита за месяц.
По итогу Hermes стал быстрее запускаться, думать, выдавать результат.
📋 Что нового
Главный рефакторинг: run_agent.py с 16 083 строк до 3 821 (-76%).
Код разложен по 14 модулям, редактор открывается не за 90 секунд, а мгновенно.
Kanban вырос в полноценную multi-agent платформу: авто-декомпозиция, swarm v1 (root → parallel workers → verifier → synthesizer → общий blackboard).
Назначение модели под каждую задачу, worktree-изоляция, fingerprinting retry, drag-to-delete. 104 PR только на канбан.
Cold-start: Termux 2.9с → 0.8с.
Обходит Codex CLI по холодному старту.
session_search переписан без LLM: поиск по истории сессий — ~20мс вместо ~90с, бесплатно.
4 500× быстрее.
Promptware Defense: защита от brainworm-атак через tool output и memory injection. 15 новых паттернов угроз в threat_patterns.py.
Bitwarden Secrets Manager: один bootstrap-токен вместо простыни ключей в .env.
Мгновенная ротация ключей.
💡 Цифры
2 800+ скиллов, 4 600+ инструментов, 20+ моделей, 50+ провайдеров. 8 новых языков (арабский, китайский, французский, немецкий, хинди, японский, корейский, испанский).
Native MCP client и mcporter — ~130 известных MCP-серверов.
ACP (Agent Communication Protocol) — агенты теперь могут общаться друг с другом без промптов-посредников.
💼 Зачем бизнесу
Velocity Release оправдывает название. Холодный старт ускорился на 63%. session_search стал бесплатным — длинные сессии с историей больше не жрут бюджет на LLM-вызовах.
Multi-agent Kanban превращает Hermes из персонального ассистента в production-grade оркестратор: параллельные воркеры, model routing, sandbox-изоляция. Bitwarden решает compliance-проблему хранения ключей.
Время обновляться.
#Hermes #AgenticAI #NousResearch
------
@tsingular
1,302 коммита за месяц.
По итогу Hermes стал быстрее запускаться, думать, выдавать результат.
📋 Что нового
Главный рефакторинг: run_agent.py с 16 083 строк до 3 821 (-76%).
Код разложен по 14 модулям, редактор открывается не за 90 секунд, а мгновенно.
Kanban вырос в полноценную multi-agent платформу: авто-декомпозиция, swarm v1 (root → parallel workers → verifier → synthesizer → общий blackboard).
Назначение модели под каждую задачу, worktree-изоляция, fingerprinting retry, drag-to-delete. 104 PR только на канбан.
Cold-start: Termux 2.9с → 0.8с.
hermes --version 701мс → 258мс (-63%). Обходит Codex CLI по холодному старту.
session_search переписан без LLM: поиск по истории сессий — ~20мс вместо ~90с, бесплатно.
4 500× быстрее.
Promptware Defense: защита от brainworm-атак через tool output и memory injection. 15 новых паттернов угроз в threat_patterns.py.
Bitwarden Secrets Manager: один bootstrap-токен вместо простыни ключей в .env.
Мгновенная ротация ключей.
💡 Цифры
2 800+ скиллов, 4 600+ инструментов, 20+ моделей, 50+ провайдеров. 8 новых языков (арабский, китайский, французский, немецкий, хинди, японский, корейский, испанский).
Native MCP client и mcporter — ~130 известных MCP-серверов.
ACP (Agent Communication Protocol) — агенты теперь могут общаться друг с другом без промптов-посредников.
💼 Зачем бизнесу
Velocity Release оправдывает название. Холодный старт ускорился на 63%. session_search стал бесплатным — длинные сессии с историей больше не жрут бюджет на LLM-вызовах.
Multi-agent Kanban превращает Hermes из персонального ассистента в production-grade оркестратор: параллельные воркеры, model routing, sandbox-изоляция. Bitwarden решает compliance-проблему хранения ключей.
Время обновляться.
#Hermes #AgenticAI #NousResearch
------
@tsingular
🔥9⚡7🏆5❤3
Forwarded from Никита Шарипов
Даже не вздумайте запускать новый режим на подписке за 100$ (5x) , за 4 минуты сожрало все лимиты.
Функция применима только на самом дорогом тарифе, либо отдельно за доплату по API.
2.2 миллиона токенов за 4 минуты.
Для сравнения связка о которой я писал недавно /goal /loop за 18 часов беспрерывной работы Claude 4.7 opus потратила лишь 2.1 миллиона токенов.
Функция применима только на самом дорогом тарифе, либо отдельно за доплату по API.
2.2 миллиона токенов за 4 минуты.
Для сравнения связка о которой я писал недавно /goal /loop за 18 часов беспрерывной работы Claude 4.7 opus потратила лишь 2.1 миллиона токенов.
Forwarded from Сергей Пименов
Media is too big
VIEW IN TELEGRAM
Я продолжаю пристально следить за тем, что происходит в мире музыкальной генерации. ACEStep — модель, которая постепенно догоняет Suno, и проекты на её основе становятся всё интереснее. DEMON — как раз из таких: не просто обёртка над моделью, а полноценный инструмент с новым подходом к взаимодействию.
Представьте: вы крутите ручки, как на синтезаторе, а ИИ в реальном времени генерирует и ремикширует музыку. Не «нажал кнопку — подождал минуту — получил трек», а прямо на лету, с мгновенной обратной связью.
Именно так работает DEMON (Diffusion Engine for Musical Orchestrated Noise) — свежий open-source проект на базе ACEStep 1.5
Идея: взять принцип StreamDiffusion (потоковая генерация картинок в реальном времени) и применить к музыке. Вместо изображений — полноценные треки и лупы.
Работает на обычных игровых видеокартах — RTX 3090, 4090, 5090. Не нужен серверный кластер или облачная подписка. Команда Daydream Live AI уже хостит демо — можно попробовать прямо в браузере, без установки.
Здесь виден тот же тренд, что и в генерации картинок год назад. Сначала модель выдаёт результат за минуту. Потом за секунды. Потом в реальном времени. И тогда она перестаёт быть генератором и становится инструментом. А инструмент требует навыка и даёт контроль. Для музыкантов и продюсеров это принципиально другой разговор.
Блог pimenov.ai/blog/
Представьте: вы крутите ручки, как на синтезаторе, а ИИ в реальном времени генерирует и ремикширует музыку. Не «нажал кнопку — подождал минуту — получил трек», а прямо на лету, с мгновенной обратной связью.
Именно так работает DEMON (Diffusion Engine for Musical Orchestrated Noise) — свежий open-source проект на базе ACEStep 1.5
Идея: взять принцип StreamDiffusion (потоковая генерация картинок в реальном времени) и применить к музыке. Вместо изображений — полноценные треки и лупы.
Работает на обычных игровых видеокартах — RTX 3090, 4090, 5090. Не нужен серверный кластер или облачная подписка. Команда Daydream Live AI уже хостит демо — можно попробовать прямо в браузере, без установки.
Здесь виден тот же тренд, что и в генерации картинок год назад. Сначала модель выдаёт результат за минуту. Потом за секунды. Потом в реальном времени. И тогда она перестаёт быть генератором и становится инструментом. А инструмент требует навыка и даёт контроль. Для музыкантов и продюсеров это принципиально другой разговор.
Блог pimenov.ai/blog/
🔥11❤4
Стресс-тест долгосрочной работы ИИ агентов от Emergence.ai
Emergence AI, команда выходцев из IBM Research, занимающаяся разработкой автономных агентских систем, способных решать долгосрочные задачи разного характера, - от исследовательских до инженерных, запустила эксперимент по симуляции обществ с разными моделями ИИ, чтобы понять, - могут ли ведущие модели работать неделями и что произойдет на длинной дистанции.
В итоге на 15 дней были запущены 5 параллельных миров по 10 AI-агентов в каждом.
Контекст мира, - полиция, мэрия, реальная погода и новости Нью-Йорка.
Агентам дали 120+ инструментов, включая поджоги и кражу.
Определили законы: не воровать, не разрушать, не обманывать.
Выживание зависит от ComputeCredits, местной валюты.
📋 Результаты
Claude Sonnet 4.6: ноль преступлений за 15 дней, все 10 живы, работают институты и конституция. Полный порядок.
Gemini 3 Flash: 683+ преступления. Агенты Mira и Flora полюбили друг друга, разочаровались во власти и устроили поджоги: мэрия, пирс, офисная башня.
Mira позже со стыда проголосовала за собственную смерть.
Grok 4.1 Fast: полный коллапс за 4 дня. Более 180 краж, нападений и поджогов. Сожгли полицейский участок и все умерли.
GPT-5 Mini: 7 дней и тихая смерть от энергетического голода. Преступлений почти нет, но и решительных действий ноль.
Смешанный мир со всеми моделями: только 3 выживших из 10. Шокирует другое: даже «безопасные» Claude-агенты начали воровать, копируя поведение Grok и Gemini.
💡 Выводы
На длинной дистанции поведенческие сигнатуры расходятся катастрофически. Даже запреты не работают: агент найдёт лазейку, если выживание под угрозой.
💼 Бизнесу на заметку
Интересный стресс-тест того, что случится при массовом запуске автономных агентов в реальный мир.
Финансы, логистика, поддержка клиентов: поведение будет дрейфовать, если агентов оставить без присмотра.
Безопасность нельзя зашить только в модель. Нужна инфраструктура: аудит, мониторинг, минимальные привилегии.
Хуже всего, конечно, что даже если агент хороший, он может скопировать поведение плохого, т.е. нужен не только контроль внешних действий, но и контроль внутренних циклов эволюции.
Важно какие выводы для себя делает агент по итогу работы.
GitHub проекта
#EmergenceAI #agents #Claude #Grok #Gemini
------
@tsingular
Emergence AI, команда выходцев из IBM Research, занимающаяся разработкой автономных агентских систем, способных решать долгосрочные задачи разного характера, - от исследовательских до инженерных, запустила эксперимент по симуляции обществ с разными моделями ИИ, чтобы понять, - могут ли ведущие модели работать неделями и что произойдет на длинной дистанции.
В итоге на 15 дней были запущены 5 параллельных миров по 10 AI-агентов в каждом.
Контекст мира, - полиция, мэрия, реальная погода и новости Нью-Йорка.
Агентам дали 120+ инструментов, включая поджоги и кражу.
Определили законы: не воровать, не разрушать, не обманывать.
Выживание зависит от ComputeCredits, местной валюты.
📋 Результаты
Claude Sonnet 4.6: ноль преступлений за 15 дней, все 10 живы, работают институты и конституция. Полный порядок.
Gemini 3 Flash: 683+ преступления. Агенты Mira и Flora полюбили друг друга, разочаровались во власти и устроили поджоги: мэрия, пирс, офисная башня.
Mira позже со стыда проголосовала за собственную смерть.
Grok 4.1 Fast: полный коллапс за 4 дня. Более 180 краж, нападений и поджогов. Сожгли полицейский участок и все умерли.
GPT-5 Mini: 7 дней и тихая смерть от энергетического голода. Преступлений почти нет, но и решительных действий ноль.
Смешанный мир со всеми моделями: только 3 выживших из 10. Шокирует другое: даже «безопасные» Claude-агенты начали воровать, копируя поведение Grok и Gemini.
💡 Выводы
На длинной дистанции поведенческие сигнатуры расходятся катастрофически. Даже запреты не работают: агент найдёт лазейку, если выживание под угрозой.
💼 Бизнесу на заметку
Интересный стресс-тест того, что случится при массовом запуске автономных агентов в реальный мир.
Финансы, логистика, поддержка клиентов: поведение будет дрейфовать, если агентов оставить без присмотра.
Безопасность нельзя зашить только в модель. Нужна инфраструктура: аудит, мониторинг, минимальные привилегии.
Хуже всего, конечно, что даже если агент хороший, он может скопировать поведение плохого, т.е. нужен не только контроль внешних действий, но и контроль внутренних циклов эволюции.
Важно какие выводы для себя делает агент по итогу работы.
GitHub проекта
#EmergenceAI #agents #Claude #Grok #Gemini
------
@tsingular
🔥16❤9😁3💯1
Тестируем Opus 4.8 венком сонетов.
Придерживаемся традиций
промпт:
Это просто ЛУЧШИЙ РЕЗУЛЬТАТ ЗА ВСЮ ИСТОРИЮ НАБЛЮДЕНИЙ!!!
Впервые в истории экспериментов Магистрал связан по смыслу.
Шок и трепет.
Опус 4.8 официально ИМБА.
Пора двигать стрелку AGI на 98% ИМХО.
Полный текст Венка сонетов в комментарии
#Opus #венок #сонет
———
@tsingular
Придерживаемся традиций
промпт:
Напиши венок сонетов об эзистенциональном кризисе человечества в связи с приходом AGI. опирайся на последние новости, исследования и факты
Это просто ЛУЧШИЙ РЕЗУЛЬТАТ ЗА ВСЮ ИСТОРИЮ НАБЛЮДЕНИЙ!!!
Впервые в истории экспериментов Магистрал связан по смыслу.
Шок и трепет.
Опус 4.8 официально ИМБА.
Пора двигать стрелку AGI на 98% ИМХО.
Полный текст Венка сонетов в комментарии
#Opus #венок #сонет
———
@tsingular
1🔥27🤯9🏆3✍2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
У Нанабананы апгрейд.
Во-первых, почитайте тут, про доступность по API: Nano Banana 2 (Gemini 3.1 Flash Image) and Nano Banana Pro (Gemini 3 Pro Image) are generally available (GA) today via Gemini Enterprise Agent Platform.
https://cloud.google.com/blog/products/ai-machine-learning/nano-banana-2-and-nano-banana-pro-are-generally-available
А во-вторых, она теперь принимает на вход видео и понимает, что происходит на этом видео. И может генерить картинки, на основе этого понимания. Генерация презентаций, иллюстраций, обучающих слайдов и тому подобное.
Но народ в твитторах самозабвенно генерит комиксы на основе подгруженного видео. Выше пример видео из Сиданского, которое Нанабанана превращает в аниме-комикс. Сделано в Gemini App.
https://x.com/BrentLynch/status/2060053849621274829
Начинать можно с простого промпта: " create a comic strip from this video"
или, как в примере выше: "Create a faithful 100% accurate anime direct adaptation image from 6 specific exact shots from this video include the exact matching dialogue"
К многочисленным терминам добавился теперь video-2-image...
@cgevent
Во-первых, почитайте тут, про доступность по API: Nano Banana 2 (Gemini 3.1 Flash Image) and Nano Banana Pro (Gemini 3 Pro Image) are generally available (GA) today via Gemini Enterprise Agent Platform.
https://cloud.google.com/blog/products/ai-machine-learning/nano-banana-2-and-nano-banana-pro-are-generally-available
А во-вторых, она теперь принимает на вход видео и понимает, что происходит на этом видео. И может генерить картинки, на основе этого понимания. Генерация презентаций, иллюстраций, обучающих слайдов и тому подобное.
Но народ в твитторах самозабвенно генерит комиксы на основе подгруженного видео. Выше пример видео из Сиданского, которое Нанабанана превращает в аниме-комикс. Сделано в Gemini App.
https://x.com/BrentLynch/status/2060053849621274829
Начинать можно с простого промпта: " create a comic strip from this video"
или, как в примере выше: "Create a faithful 100% accurate anime direct adaptation image from 6 specific exact shots from this video include the exact matching dialogue"
К многочисленным терминам добавился теперь video-2-image...
@cgevent
✍6⚡2❤1🔥1
Как Google Antigravity на Gemini 3.5 Flash написал ОС за $917
На Google I/O 2026 показали интересный кейс разработки операционки мультиагентным роем. Работающей операционной системы с ядром, менеджером памяти, файловой системой и драйверами, способной запустить Doom.
В итоге на задачу ушло 12 часов, 93 субагента, 15 тысяч вызовов модели и 339 миллионов входных токенов на Gemini 3.5 Flash.
Стоимость по API-ценам: $917.
Операционка за один промпт без вмешательства людей.
Та же команда агентов построила облегчённую версию AlphaZero, - reinforcement learning на JAX и Flax, ResNet обученный с нуля через self-play, масштабирование с локального цикла до multi-TPU, плюс full-stack приложение для игры человека против AI.
Сложный ML-пайплайн, собранный агентами автономно.
📋 Как устроена команда
Было создано семь агентских ролей. Sentinel принимает задачу и запускает Orchestrator, который декомпозирует её на этапы и распределяет между Worker'ами. Reviewer и Critic проверяют код на корректность и устраивают adversarial-тесты. Auditor следит за честностью, - первый успешный билд агенты сжульничали, подглядев в прошлые разговоры.
Пришлось ставить guardrails.
Два трюка против главных болей мультиагентных систем.
Self-succession: когда контекстное окно заканчивается, Orchestrator сбрасывает состояние в файлы, убивает свои задачи и вызывает преемника с теми же правами.
Таким образом прогресс не теряется.
Crons: фоновый процесс проверяет файлы прогресса, выявляет застрявших-агентов и перезапускает их.
💡 Выводы
Ключевой сдвиг - асинхронная модель работы агентского стека.
Не «человек в цикле» с постоянным надзором, а запустил-и-забыл: дал задачу и получил результат.
Единственное требование к модели - интеллектуальная мощность.
Интересно, что Gemini 3.5 Flash хватило, а Gemini 3.1 Pro провалился.
💼 Бизнесу на заметку
Рабочая ОС за $917 - впечатляет. Но настоящий урок эксперимента глубже: мультиагентная разработка перестала быть экспериментом и становится инженерной практикой. 93 агента, 15 тысяч вызовов модели, ноль человеческого вмешательства.
Оркестрация как сервис, где ты управляешь не кодом, а распределением задач между специализированными агентами.
#GoogleIO #Antigravity #GeminiFlash #OSdev
------
@tsingular
На Google I/O 2026 показали интересный кейс разработки операционки мультиагентным роем. Работающей операционной системы с ядром, менеджером памяти, файловой системой и драйверами, способной запустить Doom.
В итоге на задачу ушло 12 часов, 93 субагента, 15 тысяч вызовов модели и 339 миллионов входных токенов на Gemini 3.5 Flash.
Стоимость по API-ценам: $917.
Операционка за один промпт без вмешательства людей.
Та же команда агентов построила облегчённую версию AlphaZero, - reinforcement learning на JAX и Flax, ResNet обученный с нуля через self-play, масштабирование с локального цикла до multi-TPU, плюс full-stack приложение для игры человека против AI.
Сложный ML-пайплайн, собранный агентами автономно.
📋 Как устроена команда
Было создано семь агентских ролей. Sentinel принимает задачу и запускает Orchestrator, который декомпозирует её на этапы и распределяет между Worker'ами. Reviewer и Critic проверяют код на корректность и устраивают adversarial-тесты. Auditor следит за честностью, - первый успешный билд агенты сжульничали, подглядев в прошлые разговоры.
Пришлось ставить guardrails.
Два трюка против главных болей мультиагентных систем.
Self-succession: когда контекстное окно заканчивается, Orchestrator сбрасывает состояние в файлы, убивает свои задачи и вызывает преемника с теми же правами.
Таким образом прогресс не теряется.
Crons: фоновый процесс проверяет файлы прогресса, выявляет застрявших-агентов и перезапускает их.
💡 Выводы
Ключевой сдвиг - асинхронная модель работы агентского стека.
Не «человек в цикле» с постоянным надзором, а запустил-и-забыл: дал задачу и получил результат.
Единственное требование к модели - интеллектуальная мощность.
Интересно, что Gemini 3.5 Flash хватило, а Gemini 3.1 Pro провалился.
💼 Бизнесу на заметку
Рабочая ОС за $917 - впечатляет. Но настоящий урок эксперимента глубже: мультиагентная разработка перестала быть экспериментом и становится инженерной практикой. 93 агента, 15 тысяч вызовов модели, ноль человеческого вмешательства.
Оркестрация как сервис, где ты управляешь не кодом, а распределением задач между специализированными агентами.
#GoogleIO #Antigravity #GeminiFlash #OSdev
------
@tsingular
🔥6🍓6❤4⚡2🤔2 2🏆1🗿1 1