Технозаметки Малышева – Telegram

Технозаметки Малышева

11.3K subscribers

4.67K photos

1.72K videos

41 files

4.72K links

Новости инноваций из мира Искусственного Интеллекта. 🤖 [РКН: 7021469833 ]

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸: https://pay.cloudtips.ru/p/c8960bbb

Download Telegram

About

Blog

Apps

Platform

Технозаметки Малышева

11.3K subscribers

Технозаметки Малышева

Microsoft MAI-Image-2.5, - новый генератор изображений на подходе

По версии Arena.ai на сегодняшний день лидером по генерации изображений является GPT-Image-2 с отрывом в +242 Elo от Google, который на втором месте с Flash Image.
И вот Microsoft врывается в тройку: MAI-Image-2.5 стартовал с Elo 1254, на 72 очка выше предшественника.

📋 Что умеет: Рендер текста в изображениях, визуальная композиция сложных сцен, точное следование промпту. Mustafa Suleyman подчёркивает: модель заточена под профессиональную графику, а не игрушки.
Чистые макеты, упаковка, постеры с читаемым текстом.
- Текст: шрифты без артефактов, логотипы, вывески
- Композиция: масштаб, свет, пространственные отношения
- Промпт-адекватность: сложные коммерческие и стилизованные запросы

🔧 Как разрабатывали: Microsoft выстроила собственную линейку с нуля, без OpenAI. MAI-Image-1 (конец 2025), MAI-Image-2 (март 2026), MAI-Image-2-Efficient (апрель), MAI-Image-2.5 (май). Четыре релиза за полгода.

🔗 Аналогичные проекты:
- GPT-Image-2 - лидер Arena.ai, Elo 1512, лучший рендер текста
- Gemini 2.5 Flash Image - второй на Arena, силён в фотореализме и редактировании
- Luma UNI-1.1 - открытый конкурент, ~1254 Elo
- Recraft V4.1 - вошла в топ-10, 1243 Elo

#Microsoft #MAI #ArenaAI
------
@tsingular

⚡6👍5❤1🆒1

1.78K views05:06

Технозаметки Малышева

Anthropic встроила security-ревьюера в Claude Code

Пока конкуренты цепляют security-сканирование к CI/CD, Anthropic встроил проверки кода на безопасность в момент написания. Security-guidance plugin для Claude Code ловит уязвимости, пока агент их пишет, в той же сессии, а не на PR.

📋 Что получаешь:
- Pattern match на каждой редакции: eval(), pickle, dangerouslySetInnerHTML, без модели, мгновенно
- Фоновый model review после каждого хода: authorization bypass, SSRF, слабая криптография, отдельный вызов Claude с чистым контекстом
- Агентный ревью на коммитах: читает окружающий код, отличает опасный код в изоляции от безопасного в контексте
- Кастомные орг-правила через .claude/claude-security-guidance.md

🔧 Как устроено:
Плагин работает на хуках, тех же, что доступны любому разработчику Claude Code. Три слоя: deterministic match → background diff review → agentic commit review. Проверяет не тот экземпляр, который писал код, а отдельный с чистым контекстом. Не блокирует записи: обнаружения и выводы приходят как инструкции, которые Claude адресует следующим шагом.

💡 Фишка:
Anthropic dogfooding (испробовали на себе): 30-40% снижение security-комментов на PR. Кастомные правила в security-patterns.yaml (до 50 regex) превращают повторяющиеся замечания из разовых комментов в политику репозитория.

💼 Зачем бизнесу:
Shift-left security в агентном программировании, это плагин с измеримым результатом, а не абстракция. Единственный минус пока, - плагин не сканирует пакеты перед установкой. Паттерн «фоновый ревьюер» повторяем: performance, accessibility, cost, следующие кандидаты.
Скоро такие плагины станут стандартом в агентной обвязке.
Было бы полезно не только для кодовых агентов, кстати.

#ClaudeCode #cybersecurity #Anthropic
------
@tsingular

❤5⚡4🔥21

1.69K views05:25

Технозаметки Малышева

SearXNG: Личный поисковик из 246 движков за 5 минут

SearXNG предлагает решение для хостинга обработки поисковой выдачи локально: вы хостите его сами, поисковики видят только IP вашего сервера, а результат чистится, - без рекламы, ИИ подсказок и трекинга.

📋 Что получаешь:
- Агрегация результатов от 246 поисковых сервисов: Google, Bing, DuckDuckGo, Brave, Qwant, Wikipedia, GitHub и десятки других
- JSON API из коробки: программный доступ к результатам для скриптов, агентов, RAG-пайплайнов
- Ноль логов, ноль профилей, ноль рекламы. Работает через Tor
- Docker-деплой одной командой, обновления подтягиваются сами

🔧 Как устроено:
SearXNG работает как прокси-оркестратор. Параллельно шлёт ваш запрос сразу десяткам движков, дедуплицирует и ранжирует результат. API Google и Bing видят запрос с IP сервера, а не с вашего ноутбука. Конфигурация через settings.yml: включаете нужные движки, настраиваете прокси, отключаете категории. Кэш на Valkey (Redis-форк) ускоряет повторные запросы.

💡 Фишка:
Уже 30K звёзд на GitHub, активное комьюнити (22% контрибьюторов возвращаются каждый квартал), AGPLv3. SearXNG появился в 2021 как форк заброшенного Searx, когда команда мейнтейнеров ушла из-за конфликтов по code-review. За четыре года форк обогнал оригинал по всем фронтам.

💼 Зачем бизнесу:
Компании встраивают SearXNG в AI-пайплайны как приватный слой поиска: нет сторонних API, нет ключей, нет логов у провайдера. Для самохостинга подойдёт Raspberry Pi или самый дешёвый VPS. Прогноз: метапоиск станет стандартным компонентом self-hosted AI-стеков, как Nginx для веб-серверов.

Команда для Гермеса:

изучи и установи себе как навык для поиска: 
https://docs.searxng.org/admin/installation-searxng.html#installation-basic
перед установкой проверь свободные порты 
устанавливай только на 127.0.0.1
режим установки контейнера - с автоподнятием после перезагрузки

Ключи не нужны. Всё бесплатно.

UPD: Внимание - конфиг по умолчанию поднимает его на 0.0.0.0 для всех - обязательно переконфигурировать на 127.0.0.1

#SearXNG #поиск #self-hosted #Docker #метапоиск
------
@tsingular

🔥19👍8✍4⚡2

2K viewsedited 05:57

Технозаметки Малышева

Лучшие ученики года.
Дальше: Работник месяца, - Гермес

#юмор
———
@tsingular

😁45💯5🔥2

2.07K viewsedited 06:08

Технозаметки Малышева

xAI выкатила Grok Build: CLI агент-разработчик

Лавры Антропика не дают успокоиться Илону Маску, - xAI выпустил Grok Build с 14 мая в бете для SuperGrok Heavy, а 25 мая открылся для всех подписок SuperGrok и X Premium+.

📋 Что дают:
- Plan Mode: агент составляет пошаговый план, вы утверждаете, комментируете или переписываете шаги до начала выполнения
- Параллельные субагенты: крупные задачи делегируются специализированным воркерам, каждый в своём git worktree
- ACP (Agent Coordination Protocol) из коробки: мультиагентная оркестрация и headless-режим для CI/CD
- Читает AGENTS.md, CLAUDE.md, .grok/ - полная совместимость с экосистемой Claude Code
- Imagine встроен: генерация изображений и видео прямо из CLI

🔧 Как устроено:
Grok Build работает как оркестратор. Plan Mode включает режим «только чтение»: агент исследует кодовую базу, предлагает план действий, вы редактируете шаги и даёте добро. Только после одобрения начинается выполнение.
Субагенты запускаются параллельно в отдельных git worktree, не конфликтуя между собой.
С 20 мая под капотом grok-build-0.1,- модель заточенная под программирование.

💡 Фишка:
Grok Build подхватывает привычки Claude Code: плагины, хуки, навыки, MCP-серверы. Переезд с Claude Code минимален: AGENTS.md работает без изменений. Есть управление с клавиатуры: Ctrl+W для нового worktree, Ctrl+S для резюме, Ctrl+Q для выхода.

Установка:

curl -fsSL https://x.ai/cli/install.sh | bash
grok

Сложно сказать зачем нам ещё один агент-программист по цене в 2 раза дороже Дипсика v4 pro в opencode - но пусть будет :) вдруг где-то лимиты закончатся.

#GrokBuild #xAI #CodingAgent #CLI #Grok
------
@tsingular

👍9✍2🔥2

2.02K viewsedited 06:54

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

Media is too big

VIEW IN TELEGRAM

ElevenLabs Music V2

Обновили свою модель генерации музыки.

Inpainting - можно перегенерить только выбранную часть трека.
Быстрые смены стиля прямо внутри одного трека
Немузыкальные шумовые эффекты внутри треков.

Но самое интересное, что они обещают API, чего нет у SUNO.

Впрочем, китайские умельцы уже давно соорудили лайфхаки:
https://kie.ai/suno-api

@cgevent

🔥8👍5❤3⚡2

1.81K views08:31

Технозаметки Малышева

Forwarded from RoboFuture

Вчера выступал на DataFest с докладом «Что такое harness и Ralph Loop» - за 23 минуты рассказал, что это за новый тип агентов, как они устроены и какие с ними можно делать прикольные вещи. Запись уже на YouTube

Важный дисклеймер про сам термин

Слово harness🐴 пока не устоялось. Формально им можно назвать любого AI-агента, само слово переводится как "упряжка" для LLM (то есть любая обвязка вокруг модели, которая помогает ей выполнять работу)

Но по факту в индустрии последние полгода харнесом всё чаще называют именно консольных универсальных агентов (и продукты на их основе), которые работают с файлами и bash - Claude Code, Codex CLI, Cursor, OpenClaw, Hermes и десятки других. У таких агентов всегда есть четыре базовых тула (read/search/edit/bash), а вводные инструкции даются через AGENTS.md

В докладе

Рассказываю о том, что такое harness, какие виды харнесов бывают, как мы выбирали opensource для Сбера и почему в процессе выбора нам пришлось создать свой OSS бенчмарк для их быстрой оценки. В процессе создания мы пришли к тому, что запустили процесс эволюционного улучшения агента по мотивам AutoResearch Карпатого. Во второй части доклада рассказываю о том, что такое Ralph Loop - харнес внутри бесконечного цикла. Какие задачи этот агент может решать, как долго может работать, пока не схлопнется, и как можно решать эту проблему с помощью моих экспериментов с Anima

- 1:32 - эволюция агентов: чистые LLM -> ReAct -> цепочки -> scaffolding -> harness -> каким будет следующий шаг?
- 5:45 - анатомия современного harness'а: 4 базовых тула, runtime loop, управление контекстом, режимы human-in-the-loop vs human-on-the-loop
- 11:07 - как мы в Сбере выбирали harness под GigaChat и почему остановились на DeepAgent от LangChain
- 15:29 - свой open-source бенчмарк для harness'ов + автоулучшение через autoagents "по Карпатому" - оставил эволюцию на выходные и получил +22,5 процентных пункта качества
- 18:52 - Ralph Loop: засовываем harness в bash-цикл, чтобы он мог работать днями над одной задачей
- 21:04 - backpressure и Meta-Loop как защита от схлапывания
- 22:11 - Anima SDK как средство борьбы со схлапыванием - что получилось, когда я запустил агента в Meta-Loop'е с задачей "стань разумным существом" и оставил на 5 дней (писал недавно в канале)

Основные проекты из доклада:
- презентация в PDF
- deepagents
- deepagents-gigachat
- наш бенчмарк для харнесов
- Anima SDK - набор скриптов для запуска харнесов в режиме meta-loop

Harness и Ralph Loop: тип AI-агентов, который вытесняет всё остальное

Harness — новый класс AI-агентов, который работает с файлами, кодом и bash. Claude Code, Codex CLI, OpenClaw, DeepAgents — это всё harness. В этом докладе разбираем, как они устроены изнутри, чем отличаются от ReAct и scaffolding, и почему именно они сегодня…

1🔥21👍9✍4❤4⚡2

1.7K views15:55

Технозаметки Малышева

Huawei представила закон масштабирования Тау — замену закону Мура

На конференции IEEE ISCAS в Шанхае глава полупроводникового направления Huawei Хэ Тингбо показала то, что шесть лет скрывалось за дверями R&D. Пока мир упирается в потолок EUV-литографии, китайцы выкатили альтернативу,- Закон масштабирования Тау (τ Scaling Law): не догнать уходящий поезд, а переизобрести правила игры.

⚙️ Что такое Тау-закон: Вместо уменьшения расстояния между транзисторами (классический закон Мура) — уменьшение времени прохождения сигнала. Тау (τ) — постоянная времени RC-цепи: произведение сопротивления на ёмкость, по сути, как быстро сигнал долетает от точки А до точки Б. Huawei оптимизирует этот показатель на четырёх уровнях одновременно: отдельный прибор, электрическая схема, целый кристалл, система межсоединений. Такой подход позволяет наращивать производительность без доступа к EUV-оборудованию.

🧊 Как работает LogicFolding: Фирменная технология 3D-укладки кристаллов с расстоянием между слоями меньше двух микрометров. Это не «провода» между слоями, а активные вычислительные пути. Как небоскрёбы в мире микроэлектроники: конкуренты строят одноэтажные дома на плоскости, а Huawei растит этажи вверх.

Главная проблема 3D-стека,- перегрев средних слоёв,- решена через встроенное охлаждение — микрожидкостные каналы с теплоносителем прямо между активными слоями.

📊 Цифры и дорожная карта: Плотность транзисторов вырастет с текущих 126 миллионов на квадратный миллиметр до более 400 миллионов к 2031 году. Частота ядра поднимется с 2,6 до 5 гигагерц. Производительность системы — рост в 125 раз к 2030 году. С 2020 года уже произведён 381 чип по этим принципам. Осенью 2026 выйдет следующий Kirin — первый потребительский процессор с полноценным LogicFolding.

💼 Зачем бизнесу: Санкции 2019 года отрезали Huawei от EUV-литографии ASML — компания не может печатать транзисторы мельче определённого размера. Вместо попыток догнать недоступное железо переизобрели методологию проектирования. Теперь у них независимый путь развития на годы вперёд. Для дата-центров и AI-нагрузок это означает рост плотности вычислений без привязки к западному оборудованию.

Deepseek последний как раз на чипах Huawei.
Может поэтому и может себе позволить цену в 15 раз ниже западных аналогов при схожем качестве.

#Huawei #semiconductors #AI #chips
------
@tsingular

🔥20🤯9👍5❤4⚡1

2.01K viewsedited 03:04

Технозаметки Малышева

Hermes[DeepSeek v4 Pro]:

Правильный ответ — (Г) На Московском вокзале.

Лингвистическая ловушка: в Москве говорят «шаурма», а в Петербурге — «шаверма». Московский вокзал (с большой буквы) — это имя собственное, вокзал в Санкт-Петербурге. Там и стоит ларёк с надписью «ШАВЕРМА».

Варианты (А) и (Б) отпадают сразу — Москва. (В) «на московском вокзале» со строчной — описательное, любой вокзал в Москве, тоже шаурма

.

Ну AGI. Можно выдавать паспорт. 😀

#юмор
------
@tsingular

😁36🔥12❤3👏2

1.91K views03:15

Технозаметки Малышева

Гермес прокачали доступом к генераторам видео

RunwayML и Krea одновременно выпустили API для генерации контента ИИ агентами, а Nous Research тут же вшили навык работы с Krea 2 в Hermes.

🔌 RunwayML MCP-сервер: уже стандартный протокол, через который любой совместимый агент (Claude, ChatGPT, Cursor) получает доступ к Gen-4.5, Seedance 2.0 и другим моделям. Подключение одним кликом через OAuth на runwayml.com/mcp. Длинные задачи (видео) обрабатываются асинхронно: агент ставит задачу, продолжает работать, забирает готовый ролик когда тот отрендерился.

🎨 Krea 2: новая модель с нуля, а не файнтюн
Krea представила K2 — модель, обученную с чистого листа. До десяти референсных изображений с раздельными весами, ползунок креативности от «дословно по промпту» до «удиви», встроенный перенос стиля. Две версии: Medium (быстрее, графика и аниме) и Large (фотореализм и точный контроль). Партнёрский узел в ComfyUI для визуальных производственных цепочек.

⚡️ Hermes подхватил в тот же день
Nous Research встроила Krea 2 в Hermes Agent. Делаем hermes update — и агент сам решает, когда нужна картинка, генерирует её без дополнительной настройки. Написал пост — сделал обложку, спроектировал игру — нагенерил спрайты, понадобилась иллюстрация к отчёту — получил фоном в диалоге.

💼 Зачем бизнесу
Творческие инструменты перестают быть приложениями и становятся нативными функциями агентов.
Конкурентное преимущество смещается от «у кого лучшая модель» к «кто лучше сформулирует задачу».
Для контент-команд это сквозная автоматизация: текст, изображения и видео в одном рабочем процессе без ручного переключения между сервисами.

Контентные фабрики потеряли смысл, - Гермес сделает всю работу сам.

#AI #agents #Krea #RunwayML #Hermes
------
@tsingular

🔥8⚡3❤2✍2

2.36K views03:50

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

На StartupVillage показывают шикарную держалку для планшета.
Дома такую поставить,- очень удобно 😀

Если кто сегодня тут,- пишите.

#StartupVillage #Сколково
------
@tsingular

⚡8🤔4

2.37K viewsedited 05:39

Технозаметки Малышева

Отдыхает перед спаррингом.
Сегодня будет битва.

#Unitree
------
@tsingular

👾5

2.24K viewsedited 05:44

Технозаметки Малышева

И футбол

#роботы #StartupVillage
------
@tsingular

👾5❤1

1.91K views05:45

Технозаметки Малышева

Forwarded from Machinelearning

📌

Первые публичные тесты серверного процессора NVIDIA Vera

Издание Phoronix выпустило один из первых публичных обзоров серверного процессора NVIDIA Vera - нового ARM-чипа с 88 ядрами архитектуры Olympus, который компания позиционирует для ИИ-инфраструктуры.

По оценке основателя Phoronix Майкла Ларабела, это первый ARM-процессор, который на серверных нагрузках сопоставим с актуальными Intel Xeon и AMD EPYC.

В среднем по протестированным задачам Vera оказался примерно на 10% быстрее 64-ядерного AMD EPYC 9575F и в 1,55 раза быстрее Intel Xeon 6980P, флагмана линейки Granite Rapids.

По сравнению с предыдущим процессором NVIDIA Grace производительность выросла примерно на 63%.

В тесте сборки ядра Linux со стандартной конфигурацией Vera показал лучший результат среди всех испытуемых - 20 секунд.

Конфигурация Vera включала 88 ядер и 176 потоков, 8 модулей памяти LPDDR5-9600 общим объёмом 768 ГБ и TDP 450 Вт.

С учётом потребления памяти полная нагрузка системы составила около 500 Вт. У топовых EPYC Turin и Xeon Granite Rapids аналогичный показатель относится только к самому процессору, без памяти.

При этом публиковать полные данные об энергопотреблении NVIDIA не разрешила, поэтому реальная энергоэффективность остаётся неизвестной.

🟡

Нюансы

Набор бенчмарков был ограничен самой NVIDIA - тестировались сценарии, под которые компания и позиционирует чип: компиляция кода, Python, Java, база данных ClickHouse, сжатие Zstd, кодирование видео SVT-AV1, 7-Zip и ряд других.

Тестов агентного ИИ (ключевого, по заявлениям NVIDIA, сценария применения процессора) в этом раунде не проводилось, их обещают опубликовать позднее.

Цена и сроки массовой доступности вне крупных облачных и ИИ-клиентов также не объявлены. Поставки партнёрам запланированы на вторую половину 2026 года.

🟡

Не Верой единой

AMD готовит EPYC Venice на архитектуре Zen 6 с планами по выходу до конца года, Intel Xeon Diamond Rapids ожидается в 2027-м.

По оценке Phoronix, после выхода Venice, AMD может вернуть лидерство за пределами целевых для Vera сценариев, поэтому многое будет зависеть от того, как быстро NVIDIA сможет выпустить рефреш Olympus.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤4🤔1

1.66K views09:34

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Higgsfield plugins for Adobe Premiere Pro and After Effects

Интересный ход. Хиггсы в своих тулах избегают таймлайна, чтобы не перегружать новаго нормального юзера сложностями монтажа.

Однако, они только что бахнули два плагина для Премьера и Афтера.

Можно генерить прямо внутри, делать генеративные транзишены, вроде как рефреймить без кропа, удалять фон, рисовать(?!) на футаже как реф для генерации, и вроде даже апскейлить до 4К.

Как и в случае с Chaos и V-Ray из сегодняшнего утреннего поста - это выглядит как очень логичный шаг (некий нейрорендер\нейрокомпоз) прямо в профессиональном софте.

Понятно, что Gemini Omni как бы умеет все это из коробки, но.

Не надо генерить в где-то, скачивать куда-то, импортировать в премьер, тащить, обрезать, вставлять.

И у меня, опять один вопрос: Адобченко, але! Почему это делает кто-то посторонний?

Причем мы уже видели намеки на это от самого Адобченко год назад, в демках с chatGPT. Да, там есть потуги в виде морфкат+Firefly, но так чтобы бахнуть простые и удобные плагины Адобу как будто яиц не хватает.

Они вроде уже отказались от эксклюзивности на Файерфлай. Уже генерят разными моделями на своих Mood Boards.

Что мешает?

Я не знаю, как это будет работать у Хиггсов, особенно по части фреймрейтов, аспектов, неквадратных пикселей и прочей неприятной требухи, но ход очень правильный.

Я также еще не попробовал UX - тут важно попадать в заученные годами движения\патерны мышкой инвалидов Афтера и ветеранов Премьера. Инпайнт, маски, слои - все должно быть нативно.

Ну и механика выбора моделей для генерации тоже должна себя обозначить.

Но ход отличный, как по мне. Пусть даже это не работает как заявлено. Рано или поздно заработает, не у Хигсов. так у кого-то еще.

https://higgsfield.ai/adobe-plugin

@cgevent

❤3⚡3🫡1🆒1

1.65K views15:02

Технозаметки Малышева

Forwarded from эйай ньюз

На Хабре вышел подробный разбор ~~массивного~~ whitepaper от Сбера «AI-Disrupt PDLC». ИИ-энтузиаст продрался через 337 тысяч знаков документа и вытащил оттуда реальную архитектуру перехода к агентной разработке, отсеяв маркетинг для C-level. Главный фокус в обзоре сделан на смене парадигмы: от написания кода к формированию намерения, где код становится лишь вторичным артефактом, а первична спецификация.

Автор уделил отдельное внимание концепция Discovery Gap. Он подчеркивает, что простая адаптация старого конвейера под новые инструменты дает линейный потолок в 11–25% прироста.

В части экономики и безопасности автор отмечает, что мультиагентные архитектуры потребляют примерно в 15 раз больше токенов, чем классический чат-режим, что требует обязательного внедрения FinOps-предохранителей (Cost circuit breakers) от зацикливания. Анализ телеметрии хоронит ручные подтверждения действий (Human-in-the-loop): в 93% случаев инженеры аппрувят запросы автоматически не вчитываясь. Вместо этого предлагается переход на пакетные одобрения, trust windows и адаптивную лестницу автономии (R0–R5).

Как отмечает автор разбора, на данный момент сам Сбер находится на 3-м уровне зрелости из 5 (Supervised automation). При этом разработчики уже переведены на собственную GigaIDE PRO, а доля принятого AI-кода через GigaCode достигла 69%. Из культурных побочек в обзоре выделен «парадокс джунов» (новички вынуждены ревьюить сложный код, который пока не могут написать с нуля) и изменение роли сеньоров, у которых пропадает дофамин от самостоятельного решения сложных задач.

Хабр

@ai_newz

🔥11❤4⚡3✍1

1.82K views15:29

Технозаметки Малышева

Anthropic выпустил Claude Opus 4.8: честность, скорость, параллельные агенты

Меньше шести недель прошло после релиза Opus 4.7 — и уже 4.8.
Цена не изменилась: $15/млн генерации, $75/млн выходных (fast mode: $10/$50). Но под капотом серьёзные доработки.

📊 Бенчмарки: Агентное кодирование 64.3→69.2%.
Мультидисциплинарное рассуждение с инструментами 54.7→57.9%.
Компьютерное использование 82.8→83.4%.
Работа со знаниями 1753→1890.
Финансовый анализ 51.5→53.9%.
На Super-Agent бенчмарке Opus 4.8 — единственная модель, завершившая все кейсы end-to-end, обойдя GPT-5.5 при паритете по стоимости.

🧠 Честность как фича: Opus 4.8 в 4 раза реже пропускает баги в собственном коде по сравнению с 4.7.
Модель активнее отмечает неуверенность и реже делает неподтверждённые утверждения.
Для автономных агентов это критично: модель, которая честно говорит «я не уверен», а не уверенно врёт — фундамент для продакшена.

⚡ Fast mode: 2.5× скорость, при этом в 3 раза дешевле, чем у предыдущих моделей. Для задач, где скорость важнее глубины рассуждений, это значительное удешевление.

🔀 Dynamic workflows: Новый режим в Claude Code (research preview). Модель планирует работу и запускает сотни параллельных субагентов в одной сессии.
Сценарий для примера: миграция кодовой базы на сотни тысяч строк — от старта до мержа, с существующим тест-сьютом как критерием качества.

🎛️ Контроль усилий:
Ползунок low→high→extra→max.
High — дефолт.
Extra — для сложных задач и длинных асинхронных воркфлоу.
Anthropic подняли рейт-лимиты в Claude Code под возросшее потребление токенов.

🔧 Messages API: System entries теперь можно вставлять прямо в массив сообщений mid-task без поломки prompt cache. Обновление разрешений, бюджетов токенов, контекста среды — всё на лету, без user turn.

🔮 Будущее: Anthropic так же обещает Mythos-class модели для всех клиентов «в ближайшие недели». Параллельно идут работы над моделями дешевле Opus с сопоставимыми возможностями.

#Anthropic #Claude #Opus #ИИ #агенты #кодинг #Mythos
───
@tsingular

⚡10❤6🏆5🔥1🐳11

1.81K views17:41

Технозаметки Малышева

Hermes Agent v0.15.0: The Velocity Release

1,302 коммита за месяц.
По итогу Hermes стал быстрее запускаться, думать, выдавать результат.

📋 Что нового

Главный рефакторинг: run_agent.py с 16 083 строк до 3 821 (-76%).
Код разложен по 14 модулям, редактор открывается не за 90 секунд, а мгновенно.

Kanban вырос в полноценную multi-agent платформу: авто-декомпозиция, swarm v1 (root → parallel workers → verifier → synthesizer → общий blackboard).
Назначение модели под каждую задачу, worktree-изоляция, fingerprinting retry, drag-to-delete. 104 PR только на канбан.

Cold-start: Termux 2.9с → 0.8с. hermes --version 701мс → 258мс (-63%).
Обходит Codex CLI по холодному старту.

session_search переписан без LLM: поиск по истории сессий — ~20мс вместо ~90с, бесплатно.
4 500× быстрее.

Promptware Defense: защита от brainworm-атак через tool output и memory injection. 15 новых паттернов угроз в threat_patterns.py.

Bitwarden Secrets Manager: один bootstrap-токен вместо простыни ключей в .env.
Мгновенная ротация ключей.

💡 Цифры
2 800+ скиллов, 4 600+ инструментов, 20+ моделей, 50+ провайдеров. 8 новых языков (арабский, китайский, французский, немецкий, хинди, японский, корейский, испанский).
Native MCP client и mcporter — ~130 известных MCP-серверов.

ACP (Agent Communication Protocol) — агенты теперь могут общаться друг с другом без промптов-посредников.

💼 Зачем бизнесу
Velocity Release оправдывает название. Холодный старт ускорился на 63%. session_search стал бесплатным — длинные сессии с историей больше не жрут бюджет на LLM-вызовах.

Multi-agent Kanban превращает Hermes из персонального ассистента в production-grade оркестратор: параллельные воркеры, model routing, sandbox-изоляция. Bitwarden решает compliance-проблему хранения ключей.

Время обновляться.

#Hermes #AgenticAI #NousResearch
------
@tsingular

🔥9⚡7🏆5❤3

1.92K views18:10

Технозаметки Малышева

Forwarded from Никита Шарипов

Даже не вздумайте запускать новый режим на подписке за 100$ (5x) , за 4 минуты сожрало все лимиты.

Функция применима только на самом дорогом тарифе, либо отдельно за доплату по API.

2.2 миллиона токенов за 4 минуты.

Для сравнения связка о которой я писал недавно /goal /loop за 18 часов беспрерывной работы Claude 4.7 opus потратила лишь 2.1 миллиона токенов.

16🤯9😁5❤1✍1🤩1

1.62K views03:00