AGENTS.md - инструкция для AI-агентов в репозиторииСобрал понятный гайд: как писать
AGENTS.md, чтобы его понимали Codex, Claude Code, Hermes, OpenCode, OpenClaw и другие агенты.CLAUDE.mdЧат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🙏1
Свежие новости по агентам 📰
🔵 Codex Record & Replay - OpenAI добавил запись действий на Mac: пользователь один раз показывает процесс, а Codex превращает его в skill для повторного запуска через Computer Use, браузер и плагины.
🔵 Grok Build быстро развивается: AGENTS.md, skills, hooks, plugins, MCP, subagents, ACP, headless mode и панель сессий.
🔵 CEO-Bench - новый тест от Princeton для долгих агентных задач.
Агенту дают симулированный AI-стартап, $1M стартового баланса и 500 дней управления. Он принимает решения по продукту, рынку, клиентам и росту, видит панели с метриками, базу данных, соцсети, отчеты и историю переговоров, но скрытые параметры ему приходится выводить по косвенным сигналам: спрос, отток пользователей, удовлетворенность клиентов и действия конкурентов.
Это ближе к реальной работе агента-оператора, чем обычные coding evals. Ошибка может проявиться через недели, одно решение влияет на несколько частей системы, а “увидел метрику - внес патч” быстро ломается.
Результат пока жесткий: большинство моделей не заканчивают выше стартового $1M. На лучшем прогоне выше старта вышли Claude Fable 5, Claude Opus 4.8 и GPT-5.5, но стабильно выше старта больше одного раза оказался только Fable 5.
🔵 Основатель Howie написал сильный тред о том, как они довели AI помощника по планированию до 50% автономности.
Категория сложная для агента: если ассистент ошибся в переписке с кандидатом, инвестором или клиентом, пользователь его просто увольняет. Там слишком много редких и неприятных случаев: таймзоны, поездки, переносы, приватность календаря, разные типы встреч, моменты когда лучше спросить человека отдельно, а когда можно отвечать самому.
Команда пошла через людей в контуре проверки: собрала команду, которая ловила ошибки и помогала описывать, как должен действовать сильный личный ассистент руководителя в странных ситуациях. Потом на этом выросла карта нестандартных случаев: синтетический эталонный набор данных, проверки качества, fine-tuning, RL, ACE, DSPy, подагенты и новые версии рабочей обвязки.
Они не начинали с обещания полной автономности. Они сначала построили доверие и контроль качества, а уже потом постепенно отпускали руль. Сейчас Howie, по словам основателя, дошел до тысяч встреч в день и 50% автономности без роста оттока пользователей и жалоб.
Чат
Агенту дают симулированный AI-стартап, $1M стартового баланса и 500 дней управления. Он принимает решения по продукту, рынку, клиентам и росту, видит панели с метриками, базу данных, соцсети, отчеты и историю переговоров, но скрытые параметры ему приходится выводить по косвенным сигналам: спрос, отток пользователей, удовлетворенность клиентов и действия конкурентов.
Это ближе к реальной работе агента-оператора, чем обычные coding evals. Ошибка может проявиться через недели, одно решение влияет на несколько частей системы, а “увидел метрику - внес патч” быстро ломается.
Результат пока жесткий: большинство моделей не заканчивают выше стартового $1M. На лучшем прогоне выше старта вышли Claude Fable 5, Claude Opus 4.8 и GPT-5.5, но стабильно выше старта больше одного раза оказался только Fable 5.
Категория сложная для агента: если ассистент ошибся в переписке с кандидатом, инвестором или клиентом, пользователь его просто увольняет. Там слишком много редких и неприятных случаев: таймзоны, поездки, переносы, приватность календаря, разные типы встреч, моменты когда лучше спросить человека отдельно, а когда можно отвечать самому.
Команда пошла через людей в контуре проверки: собрала команду, которая ловила ошибки и помогала описывать, как должен действовать сильный личный ассистент руководителя в странных ситуациях. Потом на этом выросла карта нестандартных случаев: синтетический эталонный набор данных, проверки качества, fine-tuning, RL, ACE, DSPy, подагенты и новые версии рабочей обвязки.
Они не начинали с обещания полной автономности. Они сначала построили доверие и контроль качества, а уже потом постепенно отпускали руль. Сейчас Howie, по словам основателя, дошел до тысяч встреч в день и 50% автономности без роста оттока пользователей и жалоб.
Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
Media is too big
VIEW IN TELEGRAM
Claude Code получил Artifacts 🏋️♂️ - живые страницы из сессии агента.
Теперь агент может собрать из текущей работы интерактивную страницу: PR, дашборд, чеклист релиза, карту сервиса или заметку для ревью. Страница строится из контекста сессии: код, плагины, скиллы и подключенные инструменты. Если агент продолжает работу, страница обновляется по той же ссылке.
Также перевел две хорошие статьи:
📎 Две дорожки для кодинг-агентов: спецификация и реализация - про процесс "спецификация - реализация", где важнее правильно распределить внимание человека и агента.
📎 GTM-команда на Claude Code, которой управляет один человек - про go-to-market команду из нескольких агентов: prospector, researcher, sequencer, recoverer, reporter, общая память и утренний отчет.
Чат
Теперь агент может собрать из текущей работы интерактивную страницу: PR, дашборд, чеклист релиза, карту сервиса или заметку для ревью. Страница строится из контекста сессии: код, плагины, скиллы и подключенные инструменты. Если агент продолжает работу, страница обновляется по той же ссылке.
Также перевел две хорошие статьи:
Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Очень много инфы появляется про лупы. Это топ 4 за последние дни:
📎 Самоулучшающийся Kimi-сворм: 300 агентов, проверка Opus и цикл без ручного аудита
Для тех, кто экспериментирует с multi-agent research, Kimi, дешевыми массовыми прогонами и отдельной verifier-моделью. Внутри: как писать спецификацию для сворма, читать план декомпозиции до запуска, получать файлы вместо ответа в чате, прогонять результат через Opus-проверку и превращать ошибки в постоянные правила для следующих запусков.
📎 Loop Engineer: как строить агентные циклы, которые работают без ручного промптинга
Для фаундеров, growth-команд и разработчиков, которые хотят запускать агентные процессы вокруг бизнеса: support, SEO, product growth, ads. Главная инфа - как устроить общий слой артефактов, контрактов и логов, чтобы разные циклы читали выводы друг друга и накапливали рабочую память компании.
📎 От промптов к loop engineering: как проектировать циклы для кодинг-агентов
Для тех, кто уже пользуется Claude Code, Codex или другими кодинг-агентами и хочет перейти от ручных запросов к повторяемым циклам. Внутри: 6 частей хорошего loop - триггер, изоляция, записанный контекст, доступ к инструментам, независимая проверка и состояние на диске. Плюс примеры PR-babysitter,
📎 Архитектура агентных циклов: loop, skill и устойчивая оркестрация
Для тех, кто думает о production-агентах: фоновые процессы, ретраи, очереди, субагенты, наблюдаемость и восстановление после падений. Аагентный loop должен жить поверх устойчивой оркестрации: каждый шаг сохраняется, ошибки повторяются с нужного места, события не теряются, а dev утром видит все запуски, inputs, outputs и ретраи.
Чат
Для тех, кто экспериментирует с multi-agent research, Kimi, дешевыми массовыми прогонами и отдельной verifier-моделью. Внутри: как писать спецификацию для сворма, читать план декомпозиции до запуска, получать файлы вместо ответа в чате, прогонять результат через Opus-проверку и превращать ошибки в постоянные правила для следующих запусков.
Для фаундеров, growth-команд и разработчиков, которые хотят запускать агентные процессы вокруг бизнеса: support, SEO, product growth, ads. Главная инфа - как устроить общий слой артефактов, контрактов и логов, чтобы разные циклы читали выводы друг друга и накапливали рабочую память компании.
Для тех, кто уже пользуется Claude Code, Codex или другими кодинг-агентами и хочет перейти от ручных запросов к повторяемым циклам. Внутри: 6 частей хорошего loop - триггер, изоляция, записанный контекст, доступ к инструментам, независимая проверка и состояние на диске. Плюс примеры PR-babysitter,
/goal, лимиты, стоимость и случаи, когда loop лучше не запускать.Для тех, кто думает о production-агентах: фоновые процессы, ретраи, очереди, субагенты, наблюдаемость и восстановление после падений. Аагентный loop должен жить поверх устойчивой оркестрации: каждый шаг сохраняется, ошибки повторяются с нужного места, события не теряются, а dev утром видит все запуски, inputs, outputs и ретраи.
Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1🔥1
Semble (5.3к ⭐ ) - быстрый поиск по коду для AI-агентов.
Агент спрашивает:
Что умеет:
🔵 работает локально на CPU, без API-ключей и внешних сервисов;
🔵 подключается как MCP server, CLI или отдельный подагент;
🔵 подходит для Claude Code, Codex, Cursor, OpenCode и VS Code;
🔵 по бенчмаркам авторов экономит до 98% токенов против
Как установить - тут
Product Manager Skills (5.2к⭐ ) - библиотека продуктовых скиллов для Claude Code, Cowork, Codex и других агентов.
Внутри 50+ скиллов для исследование проблемы, PRD, roadmap, приоритизации, пользовательских сценариев, стратегии, роста и продуктовых метрик.
Самые полезные:
🔵
🔵
🔵
🔵
Готовые сценарии:
🔵
🔵
🔵
Чат
Агент спрашивает:
Как в проекте устроена аутентификация? - и получает нужные фрагменты кода без долгого чтения всего репозитория.Что умеет:
grep + read.Как установить - тут
Product Manager Skills (5.2к
Внутри 50+ скиллов для исследование проблемы, PRD, roadmap, приоритизации, пользовательских сценариев, стратегии, роста и продуктовых метрик.
Самые полезные:
discovery-process - помогает пройти путь от гипотезы до плана проверкиprioritization-advisor - подбирает способ приоритизации под вашу ситуациюprd-development - собирает PRD, который можно отдавать командеroadmap-planning - превращает цели и инициативы в понятный план релизовГотовые сценарии:
/discover - разобраться в проблеме, собрать вопросы и выбрать проверки/write-prd - превратить идею в PRD и первые пользовательские сценарии/strategy - собрать позиционирование, проблему, варианты решений и roadmapЧат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Bayer показала, как выглядит агентный RAG в проде.
PRINCE помогает исследователям работать с доклиническими данными: уточняет запрос, ищет по PDF-отчетам через RAG, ходит в структурированные данные через Text-to-SQL, проверяет полноту фактов и собирает ответ с цитатами.
📎 Как выглядит надежная агентская ИИ-система
ЧАТ
PRINCE помогает исследователям работать с доклиническими данными: уточняет запрос, ищет по PDF-отчетам через RAG, ходит в структурированные данные через Text-to-SQL, проверяет полноту фактов и собирает ответ с цитатами.
ЧАТ
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
Как Bayer строит надежную агентную ИИ-систему для доклинических исследований
Доклиническая разработка лекарств держится на огромном массиве данных: отчеты исследований, таблицы, исторические PDF, регуляторные документы, публикации, метаданные из разных лабораторий и внутренних систем. Для исследователя главная сложность часто звучит…
👍4
Graphify (70к ⭐ ) - карта проекта для AI-агентов
Агентам постоянно приходится заново читать файлы, искать по репозиторию и тратить контекст на куски кода. Graphify решает это через граф знаний: один раз строит карту проекта, а потом агент спрашивает ее вместо бесконечного
После запуска
-
-
-
Что интересно внутри:
🔵 код парсится локально через
🔵 docs, PDF, изображения, видео и Google Workspace можно добавлять в тот же граф
🔵 есть MCP-сервер с инструментами
🔵 поддерживаются Claude Code, Codex, OpenCode, Cursor, Kilo Code, Hermes, OpenClaw, Gemini CLI, Devin CLI и другие агенты
🔵 можно поставить hooks, чтобы после коммитов граф обновлялся сам
Установка:
Для команд это особенно кдобно:
Бонусом статья -📎 Второй мозг в Claude на Obsidian: практический гайд
ЧАТ
Агентам постоянно приходится заново читать файлы, искать по репозиторию и тратить контекст на куски кода. Graphify решает это через граф знаний: один раз строит карту проекта, а потом агент спрашивает ее вместо бесконечного
grep и чтения файлов.После запуска
/graphify . появляются три артефакта:-
graph.html интерактивная карта в браузере-
GRAPH_REPORT.md понятный отчет с главными узлами, связями и вопросами-
graph.json граф, который агент может спрашивать через CLI или MCPЧто интересно внутри:
tree-sitter: классы, функции, импорты, вызовы, SQL-схемы и связиquery_graph, get_node, shortest_path, list_prs, get_pr_impactУстановка:
uv tool install graphifyy graphify install /graphify .Для команд это особенно кдобно:
graphify-out/ можно коммитить в репозиторий, и новые агентные сессии сразу получают готовую память проекта. Агент видит, где авторизация, где база, какие модули связаны, какие PR задевают те же части системы и где может быть конфликт.Бонусом статья -
ЧАТ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
Продолжаем изучать тему лупов ✍️
🔵 AI loops: что это такое и где они реально работают
База: что такое loop, зачем нужны проверка, состояние и лимиты, где это помогает, а где просто сжигает токены.
Подойдет тем, кто пока использует ИИ через одиночные запросы и хочет понять следующий уровень.
🔵 Loop engineering: как заставить агента кодить ночью и не сжечь бюджет
Практика для разработки:
Подойдет разработчикам и тимлидам, которые хотят запускать кодинг агентов в репозитории безопаснее.
🔵 Один loop, 259 PR в месяц: практическая схема loop engineering
Схема полноценного loop: 6 частей, первые задачи, ограничители, типичные сбои и дешевые альтернативы.
Начинайте с маленького повторяемого процесса, где есть автоматическая проверка, лимит шагов и понятный результат.
чат
База: что такое loop, зачем нужны проверка, состояние и лимиты, где это помогает, а где просто сжигает токены.
Подойдет тем, кто пока использует ИИ через одиночные запросы и хочет понять следующий уровень.
Практика для разработки:
STATUS.md, skills, worktrees, MCP, субагенты, бюджетные стопы и утренний отчет вместо стены логов.Подойдет разработчикам и тимлидам, которые хотят запускать кодинг агентов в репозитории безопаснее.
Схема полноценного loop: 6 частей, первые задачи, ограничители, типичные сбои и дешевые альтернативы.
Начинайте с маленького повторяемого процесса, где есть автоматическая проверка, лимит шагов и понятный результат.
чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
SOUL.md, skills, MCP, sub-agents, cron jobs, профили и отдельные рабочие агенты под разные задачи.Самый интересный момент начинается после cron jobs. Если агент каждый день приносит результат, он должен учиться на обратной связи.
Для этого есть
Сначала доведите Hermes до уровня, где он стабильно делает работу без ручного вмешательства. Потом добавляйте лупы, чтобы они улучшали workflow, а не просто запускал старые задачи по расписанию.
чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥3
Если пользуетесь Codex CLI - проверьте
В Codex нашли неприятный баг с локальными логами: CLI слишком подробно писал
В issue #28224 один сетап экстраполировали до ~640 TB записей в год на SSD. Размер файла при этом может не выглядеть страшно: WAL крутится и перезаписывается, а износ диска всё равно происходит.
Если файлы уже разрослись, закройте Codex и удалите их:
Фикс уже вошёл в обновление 0.142.0
чат
~/.codexВ Codex нашли неприятный баг с локальными логами: CLI слишком подробно писал
TRACE/WebSocket/telemetry события в SQLite:~/.codex/logs_2.sqlite
~/.codex/logs_2.sqlite-wal
~/.codex/logs_2.sqlite-shm
В issue #28224 один сетап экстраполировали до ~640 TB записей в год на SSD. Размер файла при этом может не выглядеть страшно: WAL крутится и перезаписывается, а износ диска всё равно происходит.
Если файлы уже разрослись, закройте Codex и удалите их:
rm -f ~/.codex/logs_2.sqlite*
Фикс уже вошёл в обновление 0.142.0
чат
😱2
Looper (188 ⭐️) - скилл, который помогает спроектировать loop до запуска.
Если плохо описать
Вы запускаете
🔵 цель и контекст
🔵 что считается готовым результатом
🔵 проверки: команда, модель-судья или человек
🔵 отдельный reviewer/судья, например Claude проверяет работу Codex
🔵 лимиты по итерациям, времени, токенам и “нет прогресса”
🔵 файлы состояния:
Loop становится видимым артефактом. Его можно прочитать, поправить, переиспользовать, закоммитить и только потом запускать.
чат
Если плохо описать
/goal или /loop, агент быстро сожжет токены и будет уверенно крутиться вокруг плохой задачи. Looper добавляет шаг - сначала собирает нормальный цикл, потом отдает его Claude Code или другому агенту.Вы запускаете
/looper, а он интервьюирует вас по ключевым частям:state.json, run-log.md, loop.yaml, RUN_IN_SESSION.mdLoop становится видимым артефактом. Его можно прочитать, поправить, переиспользовать, закоммитить и только потом запускать.
чат
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла новая японская модель Sakana Fugu (arxiv), навела шуму знатно, в X - 25 млн просмотров
Самая интересная часть - оркестрация🔄
Снаружи это один API: вызываешь
Полный пул моделей Sakana не раскрывает. В отчете фигурируют GPT-5.5, Claude Opus 4.8 и Gemini 3.1 Pro, но точные версии, правила маршрутизации и внутренние промпты закрыты.
У обычного Fugu логика ближе к умному роутингу: выбрать подходящую модель под шаг задачи.
У Fugu Ultra - полноценный workflow: несколько агентов, роли, промежуточные ответы, проверка, синтез.
Типичный паттерн из отчета: GPT строит решение, Opus приходит на этап дебага и находит уязвимости, после чего результат дорабатывается. В других задачах Fugu может устраивать дебаты, вызывать специалиста по теме или даже рекурсивно подключать Fugu как еще одного участника команды.
Установщик для Codex:
потом:
Цены на api:
Если контекст больше 272К, то 10$ Input, 45$ Output, 1$ Cache.
И есть подписка 20/100/200$. До конца июля получаете второй месяц бесплатно.
Теперь можно иметь свою фронтир модель, не имея модели💃
чат
Самая интересная часть - оркестрация
Снаружи это один API: вызываешь
fugu или fugu-ultra, как обычную модель. Внутри Fugu решает, кого из агентного пула подключить, кому отдать подзадачу, где нужна проверка, а где достаточно одного сильного worker-а.Полный пул моделей Sakana не раскрывает. В отчете фигурируют GPT-5.5, Claude Opus 4.8 и Gemini 3.1 Pro, но точные версии, правила маршрутизации и внутренние промпты закрыты.
У обычного Fugu логика ближе к умному роутингу: выбрать подходящую модель под шаг задачи.
У Fugu Ultra - полноценный workflow: несколько агентов, роли, промежуточные ответы, проверка, синтез.
Типичный паттерн из отчета: GPT строит решение, Opus приходит на этап дебага и находит уязвимости, после чего результат дорабатывается. В других задачах Fugu может устраивать дебаты, вызывать специалиста по теме или даже рекурсивно подключать Fugu как еще одного участника команды.
Установщик для Codex:
curl -fsSL https://sakana.ai/fugu/install | bashпотом:
codex-fuguЦены на api:
fugu - вы платите только по стандартной ставке для конкретной базовой модели.fugu-ultra - 5$ Input, 30$ Output, 0.5$ Cache. Если контекст больше 272К, то 10$ Input, 45$ Output, 1$ Cache.
И есть подписка 20/100/200$. До конца июля получаете второй месяц бесплатно.
Теперь можно иметь свою фронтир модель, не имея модели
чат
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Hermes Agent получил команду
Hermes сам собирает контекст, пишет файл
Документация /learn
Чтобы команда появилась, обновитесь через👍
чат
/learn, которая превращает документы, репозитории и рабочие процессы в навыки.Hermes сам собирает контекст, пишет файл
SKILL.md по стандарту и сохраняет его для будущих задач.Документация /learn
Чтобы команда появилась, обновитесь через
/update и выполните /restart. У меня он почему-то решил не перезагружаться в этот раз чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
OpenRouter MCP - живой каталог моделей для агентов
Подключаете его к Claude Code, Codex CLI, OpenCode или Cursor - и агент может сам спросить: какая модель сейчас лучше для кода, JSON extraction, длинных документов, дизайна, reranking, speech-to-text или дешевого прогона.
Что внутри:
🔵
🔵
🔵
🔵
🔵
Подключение простое:
или для Codex:
Авторизация идет через OAuth. OpenRouter создает отдельный ключ только для MCP, по умолчанию на 7 дней и с лимитом $10. Почти все инструменты только читают данные. Платным становится
чат
Подключаете его к Claude Code, Codex CLI, OpenCode или Cursor - и агент может сам спросить: какая модель сейчас лучше для кода, JSON extraction, длинных документов, дизайна, reranking, speech-to-text или дешевого прогона.
Что внутри:
models-list, model-get, model-endpoints - живой каталог моделей, цены, контекст, модальности, провайдеры, latency, throughput и data policybenchmarks и rankings-daily - оценки из Artificial Analysis, Design Arena и тренды по использованиюchat-send - можно отправить тестовый запрос в несколько моделей и сравнить ответ, стоимость и провайдераgeneration-get - показывает точную цену, токены и endpoint конкретного прогонаdocs-search, credits-get, providers-list - поиск по документации, баланс и настройки маршрутизацииПодключение простое:
claude mcp add --transport http openrouter https://mcp.openrouter.ai/mcp
claude mcp login openrouter
или для Codex:
codex mcp add openrouter --url https://mcp.openrouter.ai/mcp
codex mcp login openrouter
Авторизация идет через OAuth. OpenRouter создает отдельный ключ только для MCP, по умолчанию на 7 дней и с лимитом $10. Почти все инструменты только читают данные. Платным становится
chat-send, потому что он реально вызывает модели.чат
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Как AI-агенты учатся после каждого запуска 😘
Обычно все смотрят на модель и веса. Но в продуктах быстрее работают другие слои: harness, проверки, память, навыки и действия пользователей.
Самая сильная часть - агент может учиться на правках человека. Менеджер одобрил возврат, который агент завернул, причина попала в процедурную память, следующий похожий кейс обрабатывается умнее.
Разбор Karpathy AutoResearch, SEAL, AlphaEvolve, Hermes, OpenClaw, Anthropic Skills и AG-UI в одной статье:
📎 Как AI-агенты учатся на практике
чат
Обычно все смотрят на модель и веса. Но в продуктах быстрее работают другие слои: harness, проверки, память, навыки и действия пользователей.
Самая сильная часть - агент может учиться на правках человека. Менеджер одобрил возврат, который агент завернул, причина попала в процедурную память, следующий похожий кейс обрабатывается умнее.
Разбор Karpathy AutoResearch, SEAL, AlphaEvolve, Hermes, OpenClaw, Anthropic Skills и AG-UI в одной статье:
чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Репозиторий loop-engineering - набор шаблонов для AI-агентов, которые работают по циклу
Агент запускается по расписанию, читает память проекта, делает задачу, проверяет результат отдельным агентом и записывает, что произошло.
В репозитории собраны шаблоны для таких сценариев: ежедневная проверка проекта, сопровождение изменений в коде, реакция на упавшие тесты, обновление зависимостей, журнал запусков и лимиты расходов.
И есть статья, которая разбирает эту идею на более рискованном примере - автоматической торговой системе. Там цикл выглядит так: собрать рыночные данные, найти торговый сигнал, проверить его на исторических данных, исполнить сделку и следить за риском.
📎 Loop engineering: как собрать самоулучшающуюся торговую систему
чат
Агент запускается по расписанию, читает память проекта, делает задачу, проверяет результат отдельным агентом и записывает, что произошло.
В репозитории собраны шаблоны для таких сценариев: ежедневная проверка проекта, сопровождение изменений в коде, реакция на упавшие тесты, обновление зависимостей, журнал запусков и лимиты расходов.
И есть статья, которая разбирает эту идею на более рискованном примере - автоматической торговой системе. Там цикл выглядит так: собрать рыночные данные, найти торговый сигнал, проверить его на исторических данных, исполнить сделку и следить за риском.
чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
MoA в Hermes Agent - новый режим, где несколько моделей работают как один агент 🔱
Внутри есть модели-советники и главная модель.
Модели-советники читают задачу и дают приватные заметки: как подойти к решению, где могут быть ошибки, что стоит проверить. Пользователь их не видит, инструменты они не вызывают.
Главная модель получает эти заметки, собирает финальный ответ и уже сама работает как обычный Hermes: вызывает tools, продолжает
На HermesBench связка
Цена тоже растет: один шаг агента превращается в несколько вызовов моделей. Поэтому MoA больше подходит для сложных задач: архитектура, ревью, планирование, длинные исследования.
Начинается игра: кто лучше замиксует модели💃
чат
Внутри есть модели-советники и главная модель.
Модели-советники читают задачу и дают приватные заметки: как подойти к решению, где могут быть ошибки, что стоит проверить. Пользователь их не видит, инструменты они не вызывают.
Главная модель получает эти заметки, собирает финальный ответ и уже сама работает как обычный Hermes: вызывает tools, продолжает
/goal, пишет результат в чат.На HermesBench связка
Claude Opus 4.8 + GPT-5.5 дала результат выше, чем каждая модель отдельно: примерно +8% к Opus 4.8 и +11% к GPT-5.5.Цена тоже растет: один шаг агента превращается в несколько вызовов моделей. Поэтому MoA больше подходит для сложных задач: архитектура, ревью, планирование, длинные исследования.
Начинается игра: кто лучше замиксует модели
чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤4🔥1
Два свежих репозитория про то, как LLM становятся лучше
slime (7к⭐ ) - фреймворк для дообучения моделей на реальных задачах. Если агент пишет код, вызывает инструменты или решает задачу в несколько шагов, slime помогает собирать такие попытки, оценивать результат и улучшать модель.
DeepSpec (1к⭐ ) - проект DeepSeek для ускорения ответов. Идея простая: маленькая модель быстро набрасывает продолжение, большая модель проверяет сразу несколько токенов, и генерация идет быстрее.
Отдельно разобрал, как работает обучение агентов на попытках и ошибках через ART (10.2к⭐ ), GRPO и RULER:
📎 Как дообучать LLM
чат
slime (7к
DeepSpec (1к
Отдельно разобрал, как работает обучение агентов на попытках и ошибках через ART (10.2к
чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Компания из одного человека обычно ломается не из-за нехватки идей. Чаще - из-за памяти и повторяемости.
Когда решения, клиентский контекст, заметки и черновики живут в разных местах, владелец быстро становится главным хранилищем, исполнителем и напоминалкой для самого себя.
В статье разобран рабочий контур для соло-предпринимателя: Obsidian как память, Claude Code как обработчик знаний, Claude Cowork как исполнитель для файлов, Hermes Agent как фоновый оператор в Telegram с навыками и расписаниями.
📎 Компания из одного человека: рабочая система на Obsidian, Claude и Hermes
чат
Когда решения, клиентский контекст, заметки и черновики живут в разных местах, владелец быстро становится главным хранилищем, исполнителем и напоминалкой для самого себя.
В статье разобран рабочий контур для соло-предпринимателя: Obsidian как память, Claude Code как обработчик знаний, Claude Cowork как исполнитель для файлов, Hermes Agent как фоновый оператор в Telegram с навыками и расписаниями.
чат
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
Компания из одного человека: рабочая система на Obsidian, Claude и Hermes
Компанию из одного человека редко ломает нехватка идей. Чаще она ломается на памяти, производстве и повторяемости. В голове лежат решения, в заметках - куски исследований, в чатах - обещания клиентам, в файлах - черновики, которые никто больше не видит целиком.…
👍4
Deepsec 4к ⭐ - сканер уязвимостей (агент) от Vercel Labs
Он сначала быстро проходит репозиторий правилами на регулярных выражениях и отмечает подозрительные места. Потом агент для кода читает файлы, контекст проекта из
🔵 автоматически использует как фолбек
🔵 работает по стадиям:
🔵 хранит состояние в
🔵 для PR есть
🔵 свои правила поиска можно писать под фреймворк, авторизацию, RPC или внутренний SDK
Старт:
Честно предупреждают про стоимость: полный прогон большой кодовой базы может стоить тысячи долларов. Нормальный вход - начать с
чат
Он сначала быстро проходит репозиторий правилами на регулярных выражениях и отмечает подозрительные места. Потом агент для кода читает файлы, контекст проекта из
INFO.md и решает, есть ли реальная уязвимость.claude/codex подписку, либо настраиваете Vercel AI APIscan → process → revalidate → enrich → export.deepsec/data, поэтому упавший запуск можно повторить, уже обработанные файлы он пропуститprocess --diff: проверяет только измененные файлы и готовит комментарий в MarkdownСтарт:
npx deepsec init cd .deepsec && pnpm install pnpm deepsec scan pnpm deepsec process pnpm deepsec revalidateЧестно предупреждают про стоимость: полный прогон большой кодовой базы может стоить тысячи долларов. Нормальный вход - начать с
--limit 50, заполнить короткий INFO.md, прогнать HIGH через revalidate, а потом добавить правила под свои реальные точки входа.чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2