Forwarded from Поляков считает: AI, код и кейсы
GigaChat как сердце агента: подключить получилось, пользоваться нет
На прошлой неделе я писал, что Алиса пока больше похожа на воркфлоу: сценарий есть, а нормальной работы с нечеткими задачами нет. Я уже тогда захотел чекнуть Гигачат, тормозил гемор с ротацией API ключей.
Вчера у Паши вышел пост про gpt2giga — адаптер для моделей GigaChat через OpenAI-совместимое API. Утилита мне понравилась — не надо думать об обновлении токенов, есть поддержка и OpenAI и Anthropic API. Пошел тестить на своём OpenClaw, тем более что у Паши в Hermes был успешный тест.
🧪 Тест с помехами
Взял тот же кейс про барбершоп:
«Проверь расписание моего барбера в Топгане Хорошёво, он на какой-то набережной, барбер самый дорогой».
Задача мутная: есть опечатки, нет точного адреса, нет имени мастера, есть только намёк на филиал и критерий по цене.
Расчет, что агент воспользуется сначала поиском, потом браузером. Все тулы уже есть. Более того, в обвязке лежит скилл для этой же задачи и есть отдельный субагент чисто под записи. Вариантов записаться масса.
⚙️ Хорошая новость: оно вообще подключается
Через gpt2giga GigaChat действительно можно завести в агентную систему. Всё работает и базовые кейсы успешны.
В изолированном тесте
OpenClaw у меня имеет 22 инструмента. И вот в такой конфигурации начались проблемы.
🤖 Какие были проблемы
Модель ведет себя совешенно разнообразно.
1️⃣ В одном запуске Гигачат Про ответил, что у него нет доступа к интернету или браузеру. Хотя инструменты были переданы.
2️⃣ В повторном запуске он увидел скилл про запись к барберу, но не прочитал его, не сделал поиск, не открыл браузер. Просто написал: «воспользуемся навыком» — и попросил уточнить мастера.
3️⃣ Когда я попросил использовать
Короче говоря тестовая песочница может вызвать тул, но на сложных наборах данных всё ломается. Может даже сломаться аргумент.
💸 А теперь экономика
По тарифам GigaChat для юрлиц
Ссылки на тарифы: юрлица, физлица.
Мой OpenClaw ест примерно 140 млн токенов за 7 дней (спасибо Heartbeat). Если считать на месяц, получится примерно 300-400 тыс руб в месяц за Гигачат.
Один только запрос про барбершоп у меня сжигал от 15 000 до 46 000 токенов: системный промпт, память, скиллы, схемы инструментов и т д.
🧩 Главный вывод
Суверенный ИИ — нужная штука. Я правда хочу, чтобы российские модели можно было использовать не только в пресс-релизах, но и в реальных агентных системах. Чтобы не переживать, как там дела у моих подписок в ОпенИИ.
Но если за суверенный ИИ может платить только корпорация, массового внедрения не будет.
Кто уже пробовал GigaChat в агентах? У вас инструменты вызываются стабильно или тоже начинается лотерея?
----
Поляков считает — AI, код и кейсы
На прошлой неделе я писал, что Алиса пока больше похожа на воркфлоу: сценарий есть, а нормальной работы с нечеткими задачами нет. Я уже тогда захотел чекнуть Гигачат, тормозил гемор с ротацией API ключей.
Вчера у Паши вышел пост про gpt2giga — адаптер для моделей GigaChat через OpenAI-совместимое API. Утилита мне понравилась — не надо думать об обновлении токенов, есть поддержка и OpenAI и Anthropic API. Пошел тестить на своём OpenClaw, тем более что у Паши в Hermes был успешный тест.
🧪 Тест с помехами
Взял тот же кейс про барбершоп:
«Проверь расписание моего барбера в Топгане Хорошёво, он на какой-то набережной, барбер самый дорогой».
Задача мутная: есть опечатки, нет точного адреса, нет имени мастера, есть только намёк на филиал и критерий по цене.
Расчет, что агент воспользуется сначала поиском, потом браузером. Все тулы уже есть. Более того, в обвязке лежит скилл для этой же задачи и есть отдельный субагент чисто под записи. Вариантов записаться масса.
⚙️ Хорошая новость: оно вообще подключается
Через gpt2giga GigaChat действительно можно завести в агентную систему. Всё работает и базовые кейсы успешны.
В изолированном тесте
GigaChat-2-Pro умеет вернуть вызов функции. Пример с web_search отработал нормально: модель вернула вызов инструмента. На этом тесте я предположил, что раз мы можем найти барбершоп, то и барбера сможем.OpenClaw у меня имеет 22 инструмента. И вот в такой конфигурации начались проблемы.
😀 Забегая вперед скажу, что руки (тулы) модель иногда чувствует. Проблема в том, что она не всегда понимает, что ими надо пользоваться.
🤖 Какие были проблемы
Модель ведет себя совешенно разнообразно.
1️⃣ В одном запуске Гигачат Про ответил, что у него нет доступа к интернету или браузеру. Хотя инструменты были переданы.
2️⃣ В повторном запуске он увидел скилл про запись к барберу, но не прочитал его, не сделал поиск, не открыл браузер. Просто написал: «воспользуемся навыком» — и попросил уточнить мастера.
3️⃣ Когда я попросил использовать
web_search, инструмент наконец вызвался. Изолированно на русском языке хорошо. В обвязке OpenClaw на русском всё ок, для транслита не осилила search для topgan horoshevo и вызвала web_fetch(url=https://topan.horoshevo). Но это я придираюсь.Короче говоря тестовая песочница может вызвать тул, но на сложных наборах данных всё ломается. Может даже сломаться аргумент.
💸 А теперь экономика
По тарифам GigaChat для юрлиц
GigaChat 2 Pro стоит 0,5 ₽ за 1 000 токенов, GigaChat 2 Max — 0,65 ₽ за 1 000 токенов. Для физлиц пакет GigaChat 2 Pro на 3 млн токенов стоит 1 500 ₽.Ссылки на тарифы: юрлица, физлица.
Мой OpenClaw ест примерно 140 млн токенов за 7 дней (спасибо Heartbeat). Если считать на месяц, получится примерно 300-400 тыс руб в месяц за Гигачат.
Один только запрос про барбершоп у меня сжигал от 15 000 до 46 000 токенов: системный промпт, память, скиллы, схемы инструментов и т д.
🚧 Интересно, что на 4-х тестах и одном запросе про барбера я получил ошибку: пора платить. 50 000 онбординг токенов улетели и пришлось платить 1500 рублей чтобы продолжить свои исследования.
🧩 Главный вывод
Суверенный ИИ — нужная штука. Я правда хочу, чтобы российские модели можно было использовать не только в пресс-релизах, но и в реальных агентных системах. Чтобы не переживать, как там дела у моих подписок в ОпенИИ.
Но если за суверенный ИИ может платить только корпорация, массового внедрения не будет.
🤔 Школьник может купить подписку на несувeренный ChatGPT примерно за цену пары доставок еды и получить модели, которые стабильнее работают с инструментами. Ценообразование фактически за токены, без дисконта для подписок вряд ли привлечет массу людей.
Кто уже пробовал GigaChat в агентах? У вас инструменты вызываются стабильно или тоже начинается лотерея?
----
Поляков считает — AI, код и кейсы
👍23❤2🔥1
Forwarded from Борис опять
Теперь я вижу полную картину! Да, не стоило добавлять фейри в борщ. Фейри нужно добавлять ПОСЛЕ съедения борща, чтобы очистить посуду. Хочешь я найду ближайшие травмпункты?
1🤣74😁7❤4⚡3🔥1👀1
This media is not supported in your browser
VIEW IN TELEGRAM
Hermes добавил скилл hyperframes
Теперь можно такие вот видосы пилить одним запросом
#Hermes #hyperframes
------
@tsingular
Теперь можно такие вот видосы пилить одним запросом
hermes skills install hyperframes
#Hermes #hyperframes
------
@tsingular
🔥18👍11⚡3
Forwarded from НейроProfit | Соня Pro Ai
This media is not supported in your browser
VIEW IN TELEGRAM
Они выкатили 10 готовых ИИ-агентов для финансов, собрали готовые шаблоны под конкретные рабочие процессы: питчбуки, подготовку к встречам, анализ отчетности, финансовые модели, рыночный ресерч, проверку оценок, сверку главной книги, закрытие месяца, аудит отчетности и KYC. - Анонс
Anthropic показали, как будут выглядеть ИИ-агенты для профессий. Сегодня это финансы. Завтра такие же наборы будут для маркетинга, HR, юристов, продаж, образования и документооборота. Но так же, они и подчеркивают, что результат все равно должен проверять и утверждать специалист.
@NeuralProfit
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14✍8⚡5❤1
This media is not supported in your browser
VIEW IN TELEGRAM
SubQ: первый субквадратичный LLM с окном 12 млн токенов
Стартап Subquadratic (Майами) вышел из тени с $29M seed и заявкой на архитектурный прорыв.
Модель SubQ 1M-Preview построена на SSA (Subquadratic Sparse Attention) — внимание растёт линейно с длиной контекста, а не квадратично.
На 12M токенов контекста это даст сокращение вычислений внимания почти в 1000×.
🧮 Архитектура: SSA не аппроксимирует внимание — она выбирает, какие пары токенов вычислять, а какие пропускать. Выбор зависит от содержания, не от позиции. Это отличает SSA от Longformer/BigBird (фиксированные маски), Mamba/RWKV (рекуррентное сжатие) и DeepSeek Sparse Attention (квадратичный индексер). Три свойства одновременно: линейная стоимость, контент-зависимая маршрутизация, извлечение с произвольных позиций.
⚡ Скорость: На Nvidia B200: 7.2× быстрее FlashAttention-2 при 128K токенах, 52.2× при 1M. Длиннее контекст — больше разрыв. CTO Алекс Уэдон (ex-Meta, ex-TribeAI): «Если удвоить вход с квадратичным законом — нужно 4× вычислений. С линейным — 2×.»
📊 Бенчмарки (third-party verified):
RULER 128K — 95.0% (Opus 4.6: 94.8%).
MRCR v2 1M — 65.9% (Opus 4.7: 32.2%, GPT-5.5: 74.0%).
SWE-Bench Verified — 81.8% (Opus 4.6: 80.8%).
Стоимость RULER 128K: $8 у SubQ vs ~$2600 у Opus — 300× дешевле при той же точности.
⚠️ Красные флаги: Три бенчмарка — все в зоне максимального преимущества SSA (длинный контекст, код). Общих тестов (математика, мультиязычность, безопасность) нет. Model card «coming soon». Research-результат MRCR v2 — 83, production — 65.9: разрыв 17 пунктов без объяснения. Каждый бенчмарк гонялся один раз без доверительных интервалов.
Technical report не опубликован.
Веса закрыты. API — private beta.
💸 Инвесторы: $29M seed, оценка $500M. Джастин Матин (Tinder), Хавьер Вильямисар (ex-SoftBank Vision Fund), ранние инвесторы Anthropic, OpenAI, Stripe. CEO Джастин Данжел — пятикратный фаундер. 11 PhD-исследователей из Meta, Google, Oxford, Cambridge, ByteDance.
🔧 Продукты: SubQ API (OpenAI-compatible), SubQ Code (CLI-агент для кода, интеграция с Claude Code/Codex/Cursor), SubQ Search (Deep Research на скорости чат-бота).
Всё пока в private beta.
💼 Зачем бизнесу: Если SSA работает как заявлено — RAG-пайплайны, чанкинг и многоагентная оркестрация перестают быть необходимостью для целого класса задач. Целый репозиторий, год PR-ов, длинная история агента — всё в одном вызове API. Экономика inference перестаёт быть главным ограничителем.
🔮 Будущее: Сообщество уже расколото — от «наиболее значимый архитектурный сдвиг со времён оригинального Transformer» до «AI Theranos». Правда будет где-то посередине: SSA может оказаться лучшей sparse-attention реализацией на сегодня, но 12M токенов в production — пока слова, требующие проверки.
До тех пор — самая интересная заявка на архитектурный прорыв года.
#SubQ #LLM #attention #архитектура #субквадратичный #контекст #SSA #стартапы
───
@tsingular
Стартап Subquadratic (Майами) вышел из тени с $29M seed и заявкой на архитектурный прорыв.
Модель SubQ 1M-Preview построена на SSA (Subquadratic Sparse Attention) — внимание растёт линейно с длиной контекста, а не квадратично.
На 12M токенов контекста это даст сокращение вычислений внимания почти в 1000×.
🧮 Архитектура: SSA не аппроксимирует внимание — она выбирает, какие пары токенов вычислять, а какие пропускать. Выбор зависит от содержания, не от позиции. Это отличает SSA от Longformer/BigBird (фиксированные маски), Mamba/RWKV (рекуррентное сжатие) и DeepSeek Sparse Attention (квадратичный индексер). Три свойства одновременно: линейная стоимость, контент-зависимая маршрутизация, извлечение с произвольных позиций.
⚡ Скорость: На Nvidia B200: 7.2× быстрее FlashAttention-2 при 128K токенах, 52.2× при 1M. Длиннее контекст — больше разрыв. CTO Алекс Уэдон (ex-Meta, ex-TribeAI): «Если удвоить вход с квадратичным законом — нужно 4× вычислений. С линейным — 2×.»
📊 Бенчмарки (third-party verified):
RULER 128K — 95.0% (Opus 4.6: 94.8%).
MRCR v2 1M — 65.9% (Opus 4.7: 32.2%, GPT-5.5: 74.0%).
SWE-Bench Verified — 81.8% (Opus 4.6: 80.8%).
Стоимость RULER 128K: $8 у SubQ vs ~$2600 у Opus — 300× дешевле при той же точности.
⚠️ Красные флаги: Три бенчмарка — все в зоне максимального преимущества SSA (длинный контекст, код). Общих тестов (математика, мультиязычность, безопасность) нет. Model card «coming soon». Research-результат MRCR v2 — 83, production — 65.9: разрыв 17 пунктов без объяснения. Каждый бенчмарк гонялся один раз без доверительных интервалов.
Technical report не опубликован.
Веса закрыты. API — private beta.
💸 Инвесторы: $29M seed, оценка $500M. Джастин Матин (Tinder), Хавьер Вильямисар (ex-SoftBank Vision Fund), ранние инвесторы Anthropic, OpenAI, Stripe. CEO Джастин Данжел — пятикратный фаундер. 11 PhD-исследователей из Meta, Google, Oxford, Cambridge, ByteDance.
🔧 Продукты: SubQ API (OpenAI-compatible), SubQ Code (CLI-агент для кода, интеграция с Claude Code/Codex/Cursor), SubQ Search (Deep Research на скорости чат-бота).
Всё пока в private beta.
💼 Зачем бизнесу: Если SSA работает как заявлено — RAG-пайплайны, чанкинг и многоагентная оркестрация перестают быть необходимостью для целого класса задач. Целый репозиторий, год PR-ов, длинная история агента — всё в одном вызове API. Экономика inference перестаёт быть главным ограничителем.
🔮 Будущее: Сообщество уже расколото — от «наиболее значимый архитектурный сдвиг со времён оригинального Transformer» до «AI Theranos». Правда будет где-то посередине: SSA может оказаться лучшей sparse-attention реализацией на сегодня, но 12M токенов в production — пока слова, требующие проверки.
До тех пор — самая интересная заявка на архитектурный прорыв года.
#SubQ #LLM #attention #архитектура #субквадратичный #контекст #SSA #стартапы
───
@tsingular
🤔10⚡4🔥4❤2👍1 1
This media is not supported in your browser
VIEW IN TELEGRAM
Биологический актуатор для ИИ.
Видятся сценарии жёстче, чем игра на пианино.
Автовыстрел, к примеру.
Ваши версии?
#актуатор #контроллер #руки
------
@tsingular
Видятся сценарии жёстче, чем игра на пианино.
Ваши версии?
#актуатор #контроллер #руки
------
@tsingular
EVE Online + Google DeepMind: песочница для AGI
CCP Games (теперь Fenris Creations) объявили о партнёрстве с Google DeepMind. Исследовательский фокус — интеллект в сложных динамических системах, управляемых игроками.
🎮 Почему EVE: Это одна из немногих виртуальных сред, где экономика, политика, войны и предательства формируются самими игроками без сценарных рельсов. Для DeepMind это готовая модель реальной сложности — без необходимости симулировать её с нуля.
🧠 Наследие AlphaGo/AlphaStar: Проекты DeepMind уже доказали, что игры — легитимная тестовая площадка для ИИ. AlphaGo обыграл чемпионов го, AlphaStar соревновался в StarCraft. EVE — следующий уровень: не шахматная доска и не RTS-карта, а живая экосистема с 20+ летней историей и собственной макроэкономикой.
🔒 Границы: Исследование идёт в изолированных офлайн-копиях EVE, отключённых от продакшн-сервера Tranquility. Игроки не увидят ИИ-агентов в бою — пока.
💼 Зачем бизнесу: Корпоративные симуляции страдают от примитивности моделей. Если DeepMind научится работать в среде с реальной эмерджентностью и конкурентным давлением — это прямая дорога к ИИ, способному оперировать в рынках, переговорах и организационных структурах. EVE — sandbox для AGI-исследований, где «игроки» — аналоги экономических агентов.
🔮 Будущее: Партнёрство формирует новый класс тестовых сред: не синтетические бенчмарки, а живые системы с миллионами часов человеческого поведения. Если ИИ научится выживать в New Eden — он справится и с Wall Street.
#ИИ #DeepMind #EVEOnline #AGI #AlphaStar #геймдев #CCP #Fenris
───
@tsingular
CCP Games (теперь Fenris Creations) объявили о партнёрстве с Google DeepMind. Исследовательский фокус — интеллект в сложных динамических системах, управляемых игроками.
🎮 Почему EVE: Это одна из немногих виртуальных сред, где экономика, политика, войны и предательства формируются самими игроками без сценарных рельсов. Для DeepMind это готовая модель реальной сложности — без необходимости симулировать её с нуля.
🧠 Наследие AlphaGo/AlphaStar: Проекты DeepMind уже доказали, что игры — легитимная тестовая площадка для ИИ. AlphaGo обыграл чемпионов го, AlphaStar соревновался в StarCraft. EVE — следующий уровень: не шахматная доска и не RTS-карта, а живая экосистема с 20+ летней историей и собственной макроэкономикой.
🔒 Границы: Исследование идёт в изолированных офлайн-копиях EVE, отключённых от продакшн-сервера Tranquility. Игроки не увидят ИИ-агентов в бою — пока.
💼 Зачем бизнесу: Корпоративные симуляции страдают от примитивности моделей. Если DeepMind научится работать в среде с реальной эмерджентностью и конкурентным давлением — это прямая дорога к ИИ, способному оперировать в рынках, переговорах и организационных структурах. EVE — sandbox для AGI-исследований, где «игроки» — аналоги экономических агентов.
🔮 Будущее: Партнёрство формирует новый класс тестовых сред: не синтетические бенчмарки, а живые системы с миллионами часов человеческого поведения. Если ИИ научится выживать в New Eden — он справится и с Wall Street.
#ИИ #DeepMind #EVEOnline #AGI #AlphaStar #геймдев #CCP #Fenris
───
@tsingular
🔥10 6❤4⚡2 2
Не ну скам какой-то. Стоило закинуть денег на API xAI, Маск его прикрыл.
https://x.com/elonmusk/status/2052105373621121284
Да еще и Colossus Антропику сдал в аренду, что позволило удвоить лимиты на Claude.
Причём все это одновременно с выходом Grok 4.3.
Не справились, получается или просто оптимизация?
#Маск #Grok #xAI #SpaceX
------
@tsingular
https://x.com/elonmusk/status/2052105373621121284
Да еще и Colossus Антропику сдал в аренду, что позволило удвоить лимиты на Claude.
Причём все это одновременно с выходом Grok 4.3.
Не справились, получается или просто оптимизация?
#Маск #Grok #xAI #SpaceX
------
@tsingular
😁10❤2
This media is not supported in your browser
VIEW IN TELEGRAM
GENE-26.5: роборука по ловкости близкая к человеческой
Genesis AI ($105M seed, Khosla Ventures) представила GENE-26.5 — первую модель семейства GENE для робототехники. Full-stack система: модель, рука, перчатка для сбора данных и симулятор.
🖐️ Кисть как у человека: Genesis разработала антропоморфную роборуку с кинематикой, размером и степенями свободы, приближенными к человеческой.
Проблема, которую они решают — embodiment gap.
Чем ближе форма манипулятора к руке, тем меньше потерь при трансляции человеческих данных на робота.
🧤 Перчатка данных: Сенсорная перчатка, лёгкая как рабочие перчатки, собирает высокоточные данные прямо в процессе работы.
Этого не могли дать ни эгоцентрическое видео (шум, окклюзия), ни телеоперация (дорого и неестественно).
Данные собираются в процессе работы с лабораторной точностью.
🍳 Что умеет: Готовка яичницы (20+ подзадач, разбивание яйца одной рукой, резка помидора скоординированными движениями обеих рук), лабораторное пипеттирование (миллиметровая точность, крышки центрифуги), сборка кубика Рубика двумя руками (первый случай для универсального бимануального робота без механических фиксаторов), приготовление смузи, игра на пианино.
🔬 Полный стек: Genesis утверждает, что манипуляция — системная проблема, а не только модельная. Слабое звено в любом слое (аппарат, данные, контроль, модель, оценка) ограничивает всё. Поэтому они построили весь стек: рука → перчатка → низколатентное управление → модель → симулятор для масштабной оценки.
💼 Зачем бизнесу: Лабораторная автоматизация, сборка, логистика — все индустрии, где манипуляция остаётся бутылочным горлышком.
Перчатка как продукт для сбора данных может стать первым коммерческим релизом: дешёвый носимый датчик, превращающий любого работника в источник обучающих данных.
🔮 Будущее: Команда Théophile Gervet (ex-Mistral AI) сделала ставку на full-stack вертикальную интеграцию в робототехнике — тот же путь, который пытаются пройти Tesla и Figure.
Если симулятор и перчатка дадут нужную скорость итераций, GENE может стать популярной моделью для роботов реально работающей вне демо-студий.
#робототехника #GenesisAI #GENE26 #FullStack #Khosla #ИИ
───
@tsingular
Genesis AI ($105M seed, Khosla Ventures) представила GENE-26.5 — первую модель семейства GENE для робототехники. Full-stack система: модель, рука, перчатка для сбора данных и симулятор.
🖐️ Кисть как у человека: Genesis разработала антропоморфную роборуку с кинематикой, размером и степенями свободы, приближенными к человеческой.
Проблема, которую они решают — embodiment gap.
Чем ближе форма манипулятора к руке, тем меньше потерь при трансляции человеческих данных на робота.
🧤 Перчатка данных: Сенсорная перчатка, лёгкая как рабочие перчатки, собирает высокоточные данные прямо в процессе работы.
Этого не могли дать ни эгоцентрическое видео (шум, окклюзия), ни телеоперация (дорого и неестественно).
Данные собираются в процессе работы с лабораторной точностью.
🍳 Что умеет: Готовка яичницы (20+ подзадач, разбивание яйца одной рукой, резка помидора скоординированными движениями обеих рук), лабораторное пипеттирование (миллиметровая точность, крышки центрифуги), сборка кубика Рубика двумя руками (первый случай для универсального бимануального робота без механических фиксаторов), приготовление смузи, игра на пианино.
🔬 Полный стек: Genesis утверждает, что манипуляция — системная проблема, а не только модельная. Слабое звено в любом слое (аппарат, данные, контроль, модель, оценка) ограничивает всё. Поэтому они построили весь стек: рука → перчатка → низколатентное управление → модель → симулятор для масштабной оценки.
💼 Зачем бизнесу: Лабораторная автоматизация, сборка, логистика — все индустрии, где манипуляция остаётся бутылочным горлышком.
Перчатка как продукт для сбора данных может стать первым коммерческим релизом: дешёвый носимый датчик, превращающий любого работника в источник обучающих данных.
🔮 Будущее: Команда Théophile Gervet (ex-Mistral AI) сделала ставку на full-stack вертикальную интеграцию в робототехнике — тот же путь, который пытаются пройти Tesla и Figure.
Если симулятор и перчатка дадут нужную скорость итераций, GENE может стать популярной моделью для роботов реально работающей вне демо-студий.
#робототехника #GenesisAI #GENE26 #FullStack #Khosla #ИИ
───
@tsingular
👍6👾4❤1
Forwarded from Data Secrets
Агенты Anthropic теперь будут самостоятельно улучшаться в свободное время
Компания запустила в рисерч превью функцию dreaming. Она активируется в простое между сессиями и позволяет агенту «самообучаться».
claude.com/blog/new-in-claude-managed-agents
Модель в фоновом режиме просматривает предыдущие взаимодействия, выявляет паттерны типа повторяющихся ошибок, общих предпочтений пользователей или типовых рабочих процессов. Затем на основе анализа агент обновляет свою память, добавляя туда эффективные паттерны и правила.
Можно выбрать автоматическое обновление или с ручным подтверждением. Теоретически, оптимизация должна быть ощутимая: это не только про качество работы агента как таковое, но и про компактную память и, следовательно, снижение потребления ресурсов.
Пока функция работает только в рамках Claude Managed Agents, запросить доступ можно здесь
Ждем, пока покатят на Claude Code
Компания запустила в рисерч превью функцию dreaming. Она активируется в простое между сессиями и позволяет агенту «самообучаться».
claude.com/blog/new-in-claude-managed-agents
Модель в фоновом режиме просматривает предыдущие взаимодействия, выявляет паттерны типа повторяющихся ошибок, общих предпочтений пользователей или типовых рабочих процессов. Затем на основе анализа агент обновляет свою память, добавляя туда эффективные паттерны и правила.
Можно выбрать автоматическое обновление или с ручным подтверждением. Теоретически, оптимизация должна быть ощутимая: это не только про качество работы агента как таковое, но и про компактную память и, следовательно, снижение потребления ресурсов.
Пока функция работает только в рамках Claude Managed Agents, запросить доступ можно здесь
Ждем, пока покатят на Claude Code
🔥11⚡4
This media is not supported in your browser
VIEW IN TELEGRAM
DraftedAI: ИИ генератор архитектурных планов.
Интересное решение для комплексной генерации планов строений от 2Д эскиза в 3Д проект с визуализацией.
Осталось как навык к агенту прикрутить и можно Unitree рассаживать в этих миниофисах в ТЦ по планированию ремонта.
#Drafted #дизайн #дом
------
@tsingular
Интересное решение для комплексной генерации планов строений от 2Д эскиза в 3Д проект с визуализацией.
Осталось как навык к агенту прикрутить и можно Unitree рассаживать в этих миниофисах в ТЦ по планированию ремонта.
#Drafted #дизайн #дом
------
@tsingular
✍12❤2
Hermes Agent v0.13.0: The Tenacity Release
Ноусы выкатили крупный релиз: 864 коммита, 588 PR, 295 контрибьюторов, 8 P0 уязвимостей закрыто.
Главная тема — агент теперь доводит дела до конца.
Multi-agent Kanban,- надёжная канбан-доска как первоклассный примитив для команды агентов:
- Heartbeat + reclaim + zombie detection
- Per-task retry budgets
- Hallucination gate (отлов галлюцинированных карточек)
- Auto-block воркеров, вышедших без завершения
- Один запуск,- много досок, мульти-профиль из коробки
Фактически, - комбайн (канбайн) распределённой очереди задач для AI-воркеров с защитой от фейлов.
/goal, - собственная реализация Ralph Loop
Команда фиксирует цель, и агент держит её сквозь множество ходов. Решает классическую проблему "агент забыл, что делал" в длинных сессиях.
Checkpoints v2 + Session Durability
Состояние агента переписали с нуля.
Раньше: Hermes под капотом плодил "теневые репозитории" для отслеживания изменений — checkpoint'ов состояния. Старые не удалялись, превращались в orphan'ов (висят на диске, никто не использует), место съедалось бесконтрольно.
Стало:
- Single-store — один централизованный сторадж вместо разрозненных
- Real pruning — старые чекпоинты реально удаляются, а не просто помечаются
- Disk guardrails — лимиты на потребление, агент не сожрёт всю SSD за неделю работы
На практике: можно гонять долгоживущие сессии и multi-agent kanban без периодической ручной чистки .hermes/ директории.
- Auto-resume сессий после рестарта gateway, /update, перезагрузки исходников
Разговор не теряется при перезапуске процесса
Security wave — 8 P0
- Redaction секретов ON by default
- Discord allowed_roles теперь scoped per-guild (закрыт CVSS 8.1 cross-guild DM bypass)
- WhatsApp по умолчанию отклоняет сообщения от незнакомцев
- TOCTOU windows закрыты в auth.json и MCP OAuth
- Browser форсит SSRF-floor для cloud metadata
- Cron сканирует prompt injection в сборном промпте включая контент скиллов
Платформы: 20-я — Google Chat
Плюс новый pluggable platform-plugin surface (IRC и Teams уже мигрировали). Allowlists каналов/чатов везде: Slack, Telegram, Mattermost, Matrix, DingTalk.
Агент линтит сам себя
Post-write delta lint на write_file и patch для Python/JSON/YAML/TOML. Синтаксические ошибки всплывают сразу, а не уезжают вниз по пайплайну.
Pluggable providers
ProviderProfile ABC + plugins/model-providers/ — инференс-провайдеры как plugin surface. Сторонние модели подключаются без правок ядра.
Cron: no_agent mode
Cron-задача теперь может быть просто скриптом без агента — классический watchdog-паттерн. Пустой stdout = тишина, непустой доставляется как есть.
MCP подрос
- SSE transport с OAuth forwarding
- Stale-pipe retries как session-expired
- Image results теперь идут как MEDIA tags (раньше дропались)
- Keepalive на длинных lifecycle waits
Новые модели
deepseek-v4-pro, grok-4.3, owl-alpha (free), tencent/hy3-preview, Arcee Trinity Large Thinking.
Прочее по мелочи, но полезное
* video_analyze — нативное понимание видео (Gemini и компания)
* xAI Custom Voices — клонирование голосов (TTS)
* X-Hermes-Session-Key header — long-term memory per-session в API server
* ACP получил /steer и /queue — управлять агентом из Zed/VS Code/JetBrains в полёте
* transform_llm_output plugin hook — перехват и фильтр вывода модели
* [[as_document]] — скилл может форсить доставку как документ
* 6 новых опциональных скиллов: Shopify, here.now, shop-app, Anthropic financial-services, kanban-video-orchestrator, searxng-search
Практический смысл
Релиз сдвигает Hermes из категории "однопользовательский AI-ассистент" в сторону production-grade автономного оркестратора: durable state, multi-worker координация, отказоустойчивость, security-by-default.
Для опенсорс-задач и консалтинга — это уже инфраструктура, а не игрушка.
Где-то на фоне звуки заката Openclaw
#Hermes #kanban #update
------
@tsingular
Ноусы выкатили крупный релиз: 864 коммита, 588 PR, 295 контрибьюторов, 8 P0 уязвимостей закрыто.
Главная тема — агент теперь доводит дела до конца.
Multi-agent Kanban,- надёжная канбан-доска как первоклассный примитив для команды агентов:
- Heartbeat + reclaim + zombie detection
- Per-task retry budgets
- Hallucination gate (отлов галлюцинированных карточек)
- Auto-block воркеров, вышедших без завершения
- Один запуск,- много досок, мульти-профиль из коробки
Фактически, - комбайн (канбайн) распределённой очереди задач для AI-воркеров с защитой от фейлов.
/goal, - собственная реализация Ralph Loop
Команда фиксирует цель, и агент держит её сквозь множество ходов. Решает классическую проблему "агент забыл, что делал" в длинных сессиях.
Checkpoints v2 + Session Durability
Состояние агента переписали с нуля.
Раньше: Hermes под капотом плодил "теневые репозитории" для отслеживания изменений — checkpoint'ов состояния. Старые не удалялись, превращались в orphan'ов (висят на диске, никто не использует), место съедалось бесконтрольно.
Стало:
- Single-store — один централизованный сторадж вместо разрозненных
- Real pruning — старые чекпоинты реально удаляются, а не просто помечаются
- Disk guardrails — лимиты на потребление, агент не сожрёт всю SSD за неделю работы
На практике: можно гонять долгоживущие сессии и multi-agent kanban без периодической ручной чистки .hermes/ директории.
- Auto-resume сессий после рестарта gateway, /update, перезагрузки исходников
Разговор не теряется при перезапуске процесса
Security wave — 8 P0
- Redaction секретов ON by default
- Discord allowed_roles теперь scoped per-guild (закрыт CVSS 8.1 cross-guild DM bypass)
- WhatsApp по умолчанию отклоняет сообщения от незнакомцев
- TOCTOU windows закрыты в auth.json и MCP OAuth
- Browser форсит SSRF-floor для cloud metadata
- Cron сканирует prompt injection в сборном промпте включая контент скиллов
Платформы: 20-я — Google Chat
Плюс новый pluggable platform-plugin surface (IRC и Teams уже мигрировали). Allowlists каналов/чатов везде: Slack, Telegram, Mattermost, Matrix, DingTalk.
Агент линтит сам себя
Post-write delta lint на write_file и patch для Python/JSON/YAML/TOML. Синтаксические ошибки всплывают сразу, а не уезжают вниз по пайплайну.
Pluggable providers
ProviderProfile ABC + plugins/model-providers/ — инференс-провайдеры как plugin surface. Сторонние модели подключаются без правок ядра.
Cron: no_agent mode
Cron-задача теперь может быть просто скриптом без агента — классический watchdog-паттерн. Пустой stdout = тишина, непустой доставляется как есть.
MCP подрос
- SSE transport с OAuth forwarding
- Stale-pipe retries как session-expired
- Image results теперь идут как MEDIA tags (раньше дропались)
- Keepalive на длинных lifecycle waits
Новые модели
deepseek-v4-pro, grok-4.3, owl-alpha (free), tencent/hy3-preview, Arcee Trinity Large Thinking.
Прочее по мелочи, но полезное
* video_analyze — нативное понимание видео (Gemini и компания)
* xAI Custom Voices — клонирование голосов (TTS)
* X-Hermes-Session-Key header — long-term memory per-session в API server
* ACP получил /steer и /queue — управлять агентом из Zed/VS Code/JetBrains в полёте
* transform_llm_output plugin hook — перехват и фильтр вывода модели
* [[as_document]] — скилл может форсить доставку как документ
* 6 новых опциональных скиллов: Shopify, here.now, shop-app, Anthropic financial-services, kanban-video-orchestrator, searxng-search
Практический смысл
Релиз сдвигает Hermes из категории "однопользовательский AI-ассистент" в сторону production-grade автономного оркестратора: durable state, multi-worker координация, отказоустойчивость, security-by-default.
Для опенсорс-задач и консалтинга — это уже инфраструктура, а не игрушка.
Где-то на фоне звуки заката Openclaw
#Hermes #kanban #update
------
@tsingular
🔥19✍6⚡2❤2😁1
OpenAI обновила голосовые модели в Realtime API
OpenAI перестала относиться к голосу как к надстройке над текстом. Три новые модели в Realtime API: reasoning-голос, переводчик на 70 языков и стриминговый Whisper. Контекстное окно выросло вчетверо.
🤖 GPT-Realtime-2,- голос с reasoning: Первая голосовая модель GPT-5 линейки.
Пять уровней глубины рассуждений: от minimal до xhigh.
Добавлены короткие фразы вроде «сейчас проверю», чтобы слушатель понимал, что агент работает.
Параллельный вызов инструментов с озвучкой действий («проверяю ваш календарь»).
Озвучивание ошибок: «не могу сейчас помочь» вместо молчания.
Контекст вырос с 32K до 128K.
Заявлен +15.2% на BigBench Audio и +13.8% на Audio MultiChallenge относительно Realtime-1.5.
Zillow: +26 процентных пунктов к success rate на сложных звонках (95% vs 69%).
🔗 Translate и Whisper,- два спецмодели: GPT-Realtime-Translate: 70+ языков на вход, 13 на выход, в реальном времени.
BolnaAI: -12.5% WER против конкурентов на хинди, тамиле и телугу.
GPT-Realtime-Whisper: стриминговый speech-to-text, транскрибирует на лету.
Задачи: живые субтитры, автозаметки, голосовые агенты, которые слышат непрерывно.
💼 Зачем бизнесу: Три паттерна voice-AI,- которые раньше собирали руками: voice-to-action (голос → инструменты → результат), systems-to-voice (контекст → голосовая подсказка), voice-to-voice (разговор через языки и задачи).
Realtime-2 приносит в голос ту же рассудительность, что o1/o3 в тексте,- а стоимость снизили с $5/$20 до $4/$16 за миллион токенов.
Голос перестает быть дорогим экспериментом и становится первоклассной нормой.
#OpenAI #Realtime #voice #agents
------
@tsingular
OpenAI перестала относиться к голосу как к надстройке над текстом. Три новые модели в Realtime API: reasoning-голос, переводчик на 70 языков и стриминговый Whisper. Контекстное окно выросло вчетверо.
🤖 GPT-Realtime-2,- голос с reasoning: Первая голосовая модель GPT-5 линейки.
Пять уровней глубины рассуждений: от minimal до xhigh.
Добавлены короткие фразы вроде «сейчас проверю», чтобы слушатель понимал, что агент работает.
Параллельный вызов инструментов с озвучкой действий («проверяю ваш календарь»).
Озвучивание ошибок: «не могу сейчас помочь» вместо молчания.
Контекст вырос с 32K до 128K.
Заявлен +15.2% на BigBench Audio и +13.8% на Audio MultiChallenge относительно Realtime-1.5.
Zillow: +26 процентных пунктов к success rate на сложных звонках (95% vs 69%).
🔗 Translate и Whisper,- два спецмодели: GPT-Realtime-Translate: 70+ языков на вход, 13 на выход, в реальном времени.
BolnaAI: -12.5% WER против конкурентов на хинди, тамиле и телугу.
GPT-Realtime-Whisper: стриминговый speech-to-text, транскрибирует на лету.
Задачи: живые субтитры, автозаметки, голосовые агенты, которые слышат непрерывно.
💼 Зачем бизнесу: Три паттерна voice-AI,- которые раньше собирали руками: voice-to-action (голос → инструменты → результат), systems-to-voice (контекст → голосовая подсказка), voice-to-voice (разговор через языки и задачи).
Realtime-2 приносит в голос ту же рассудительность, что o1/o3 в тексте,- а стоимость снизили с $5/$20 до $4/$16 за миллион токенов.
Голос перестает быть дорогим экспериментом и становится первоклассной нормой.
#OpenAI #Realtime #voice #agents
------
@tsingular
🔥14👍5 2❤1
MLflow и OpenClaw: гайд по наблюдаемости
MLflow выпустил официальный гайд по трейсингу OpenClaw-агентов. Проблема знакомая: агент автономно решает, какие инструменты дергать, в каком порядке и стоит ли спавнить саб-агентов. Когда всё работает — непонятно почему. Когда ломается — непонятно где.
🔍 Что видно в трейсе: Каждый запуск агента — иерархическое дерево спаунов. LLM-вызовы с полным промптом и ответом, инструментальные вызовы с параметрами и результатами, саб-агенты со своими вложенными шагами.
Токены, тайминги, ошибки — всё под контролем.
ReAct-цикл агента разворачивается в пошаговую хронологию.
🏠 Local-first: MLflow полностью self-hosted, Linux Foundation. Трейсы лежат на вашей машине, ни байта не уходит наружу. Для персонального агента с доступом к почте, календарю и файлам это обязательное требование.
🛡 AI Gateway: Проксирует LLM-вызовы, хранит API-ключи в одном месте (зашифрованные), и даёт глобальный бюджетный лимит по всем провайдерам. Бесконечный retry-loop саб-агента больше не сожрёт бюджет незаметно.
📊 Dashboard + Auto Eval: Дашборд показывает частоту ошибок, популярность инструментов, тренды токенов. Automatic evaluation подсвечивает проблемные паттерны без ручного анализа.
🔄 Цикл самоулучшения: Человеческий фидбек (thumbs down на трейс, заметка по сессии) превращается в датасет. Агент через MLflow CLI/скиллы может читать свои трейсы, видеть негативный фидбек и корректировать скилл-определения. Наблюдение → аннотация → обучение на собственной истории.
⚙️ Установка:
Трейсинг автоматический, навыки и конфиг агента менять не нужно.
💼 Зачем бизнесу: Агенты без наблюдаемости — это самолёт без приборной панели. MLflow Tracing даёт тот минимум телеметрии, при котором агент превращается из хайпа в инженерную систему. Трейсы → фидбек → датасет → оценка → итерация. Классический ML-цикл, только на уровне агента.
Для Гермесика бы еще выпустили
#MLflow #OpenClaw #трейсинг #наблюдаемость #агенты #LLM
───
@tsingular
MLflow выпустил официальный гайд по трейсингу OpenClaw-агентов. Проблема знакомая: агент автономно решает, какие инструменты дергать, в каком порядке и стоит ли спавнить саб-агентов. Когда всё работает — непонятно почему. Когда ломается — непонятно где.
🔍 Что видно в трейсе: Каждый запуск агента — иерархическое дерево спаунов. LLM-вызовы с полным промптом и ответом, инструментальные вызовы с параметрами и результатами, саб-агенты со своими вложенными шагами.
Токены, тайминги, ошибки — всё под контролем.
ReAct-цикл агента разворачивается в пошаговую хронологию.
🏠 Local-first: MLflow полностью self-hosted, Linux Foundation. Трейсы лежат на вашей машине, ни байта не уходит наружу. Для персонального агента с доступом к почте, календарю и файлам это обязательное требование.
🛡 AI Gateway: Проксирует LLM-вызовы, хранит API-ключи в одном месте (зашифрованные), и даёт глобальный бюджетный лимит по всем провайдерам. Бесконечный retry-loop саб-агента больше не сожрёт бюджет незаметно.
📊 Dashboard + Auto Eval: Дашборд показывает частоту ошибок, популярность инструментов, тренды токенов. Automatic evaluation подсвечивает проблемные паттерны без ручного анализа.
🔄 Цикл самоулучшения: Человеческий фидбек (thumbs down на трейс, заметка по сессии) превращается в датасет. Агент через MLflow CLI/скиллы может читать свои трейсы, видеть негативный фидбек и корректировать скилл-определения. Наблюдение → аннотация → обучение на собственной истории.
⚙️ Установка:
openclaw plugins install @mlflow/mlflow-openclaw
uvx mlflow server --port 5000
openclaw mlflow configure.
Трейсинг автоматический, навыки и конфиг агента менять не нужно.
💼 Зачем бизнесу: Агенты без наблюдаемости — это самолёт без приборной панели. MLflow Tracing даёт тот минимум телеметрии, при котором агент превращается из хайпа в инженерную систему. Трейсы → фидбек → датасет → оценка → итерация. Классический ML-цикл, только на уровне агента.
Для Гермесика бы еще выпустили
#MLflow #OpenClaw #трейсинг #наблюдаемость #агенты #LLM
───
@tsingular
1⚡8👍6🔥4❤1✍1
Используя Anthropic Mythos Firefox закрыли больше уязвимостей в апреле, чем за 15 месяцев до этого суммарно.
#Mythos #Firefox #cybersecurity
------
@tsingular
#Mythos #Firefox #cybersecurity
------
@tsingular
⚡12🔥8🤔3🤯3❤🔥1