Agents Lab – Telegram

Agents Lab

742 subscribers

39 photos

23 videos

126 links

Обсуждаем AI агентов

Наш чатик https://t.me/agents_lab_community

Download Telegram

About

Blog

Apps

Platform

742 subscribers

AGENTS.md - инструкция для AI-агентов в репозитории

Собрал понятный гайд: как писать AGENTS.md, чтобы его понимали Codex, Claude Code, Hermes, OpenCode, OpenClaw и другие агенты.

🔵 Что класть в файл
🔵 Как описывать команды, тесты и запреты
🔵 Как сделать совместимость с CLAUDE.md
🔵 Пара шаблонов

📎

Читать статью

Чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🙏1

587 views18:10

Свежие новости по агентам 📰

🔵

Codex Record & Replay - OpenAI добавил запись действий на Mac: пользователь один раз показывает процесс, а Codex превращает его в skill для повторного запуска через Computer Use, браузер и плагины.

🔵

Grok Build быстро развивается: AGENTS.md, skills, hooks, plugins, MCP, subagents, ACP, headless mode и панель сессий.

🔵

CEO-Bench - новый тест от Princeton для долгих агентных задач.

Агенту дают симулированный AI-стартап, $1M стартового баланса и 500 дней управления. Он принимает решения по продукту, рынку, клиентам и росту, видит панели с метриками, базу данных, соцсети, отчеты и историю переговоров, но скрытые параметры ему приходится выводить по косвенным сигналам: спрос, отток пользователей, удовлетворенность клиентов и действия конкурентов.

Это ближе к реальной работе агента-оператора, чем обычные coding evals. Ошибка может проявиться через недели, одно решение влияет на несколько частей системы, а “увидел метрику - внес патч” быстро ломается.

Результат пока жесткий: большинство моделей не заканчивают выше стартового $1M. На лучшем прогоне выше старта вышли Claude Fable 5, Claude Opus 4.8 и GPT-5.5, но стабильно выше старта больше одного раза оказался только Fable 5.

🔵 Основатель Howie написал сильный тред о том, как они довели AI помощника по планированию до 50% автономности.

Категория сложная для агента: если ассистент ошибся в переписке с кандидатом, инвестором или клиентом, пользователь его просто увольняет. Там слишком много редких и неприятных случаев: таймзоны, поездки, переносы, приватность календаря, разные типы встреч, моменты когда лучше спросить человека отдельно, а когда можно отвечать самому.

Команда пошла через людей в контуре проверки: собрала команду, которая ловила ошибки и помогала описывать, как должен действовать сильный личный ассистент руководителя в странных ситуациях. Потом на этом выросла карта нестандартных случаев: синтетический эталонный набор данных, проверки качества, fine-tuning, RL, ACE, DSPy, подагенты и новые версии рабочей обвязки.

Они не начинали с обещания полной автономности. Они сначала построили доверие и контроль качества, а уже потом постепенно отпускали руль. Сейчас Howie, по словам основателя, дошел до тысяч встреч в день и 50% автономности без роста оттока пользователей и жалоб.

Чат

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

716 views08:30

Media is too big

VIEW IN TELEGRAM

Claude Code получил Artifacts 🏋️‍♂️ - живые страницы из сессии агента.

Теперь агент может собрать из текущей работы интерактивную страницу: PR, дашборд, чеклист релиза, карту сервиса или заметку для ревью. Страница строится из контекста сессии: код, плагины, скиллы и подключенные инструменты. Если агент продолжает работу, страница обновляется по той же ссылке.

Также перевел две хорошие статьи:

📎

Две дорожки для кодинг-агентов: спецификация и реализация - про процесс "спецификация - реализация", где важнее правильно распределить внимание человека и агента.

📎

GTM-команда на Claude Code, которой управляет один человек - про go-to-market команду из нескольких агентов: prospector, researcher, sequencer, recoverer, reporter, общая память и утренний отчет.

Чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

785 views17:15

Очень много инфы появляется про лупы. Это топ 4 за последние дни:

📎

Самоулучшающийся Kimi-сворм: 300 агентов, проверка Opus и цикл без ручного аудита

Для тех, кто экспериментирует с multi-agent research, Kimi, дешевыми массовыми прогонами и отдельной verifier-моделью. Внутри: как писать спецификацию для сворма, читать план декомпозиции до запуска, получать файлы вместо ответа в чате, прогонять результат через Opus-проверку и превращать ошибки в постоянные правила для следующих запусков.

📎

Loop Engineer: как строить агентные циклы, которые работают без ручного промптинга

Для фаундеров, growth-команд и разработчиков, которые хотят запускать агентные процессы вокруг бизнеса: support, SEO, product growth, ads. Главная инфа - как устроить общий слой артефактов, контрактов и логов, чтобы разные циклы читали выводы друг друга и накапливали рабочую память компании.

📎

От промптов к loop engineering: как проектировать циклы для кодинг-агентов

Для тех, кто уже пользуется Claude Code, Codex или другими кодинг-агентами и хочет перейти от ручных запросов к повторяемым циклам. Внутри: 6 частей хорошего loop - триггер, изоляция, записанный контекст, доступ к инструментам, независимая проверка и состояние на диске. Плюс примеры PR-babysitter, /goal, лимиты, стоимость и случаи, когда loop лучше не запускать.

📎

Архитектура агентных циклов: loop, skill и устойчивая оркестрация

Для тех, кто думает о production-агентах: фоновые процессы, ретраи, очереди, субагенты, наблюдаемость и восстановление после падений. Аагентный loop должен жить поверх устойчивой оркестрации: каждый шаг сохраняется, ошибки повторяются с нужного места, события не теряются, а dev утром видит все запуски, inputs, outputs и ретраи.

Чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1🔥1

2.38K views10:30

Semble (5.3к ⭐) - быстрый поиск по коду для AI-агентов.

Агент спрашивает: Как в проекте устроена аутентификация? - и получает нужные фрагменты кода без долгого чтения всего репозитория.

Что умеет:
🔵 работает локально на CPU, без API-ключей и внешних сервисов;
🔵 подключается как MCP server, CLI или отдельный подагент;
🔵 подходит для Claude Code, Codex, Cursor, OpenCode и VS Code;
🔵 по бенчмаркам авторов экономит до 98% токенов против grep + read.

Как установить - тут

Product Manager Skills (5.2к ⭐) - библиотека продуктовых скиллов для Claude Code, Cowork, Codex и других агентов.

Внутри 50+ скиллов для исследование проблемы, PRD, roadmap, приоритизации, пользовательских сценариев, стратегии, роста и продуктовых метрик.

Самые полезные:

🔵

discovery-process - помогает пройти путь от гипотезы до плана проверки

🔵

prioritization-advisor - подбирает способ приоритизации под вашу ситуацию

🔵

prd-development - собирает PRD, который можно отдавать команде

🔵

roadmap-planning - превращает цели и инициативы в понятный план релизов

Готовые сценарии:

🔵

/discover - разобраться в проблеме, собрать вопросы и выбрать проверки

🔵

/write-prd - превратить идею в PRD и первые пользовательские сценарии

🔵

/strategy - собрать позиционирование, проблему, варианты решений и roadmap

Чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

772 viewsedited 18:54

Bayer показала, как выглядит агентный RAG в проде.

PRINCE помогает исследователям работать с доклиническими данными: уточняет запрос, ищет по PDF-отчетам через RAG, ходит в структурированные данные через Text-to-SQL, проверяет полноту фактов и собирает ответ с цитатами.

📎

Как выглядит надежная агентская ИИ-система

ЧАТ

Please open Telegram to view this post

VIEW IN TELEGRAM

Как Bayer строит надежную агентную ИИ-систему для доклинических исследований

Доклиническая разработка лекарств держится на огромном массиве данных: отчеты исследований, таблицы, исторические PDF, регуляторные документы, публикации, метаданные из разных лабораторий и внутренних систем. Для исследователя главная сложность часто звучит…

👍4

522 views14:10

Graphify (70к ⭐) - карта проекта для AI-агентов

Агентам постоянно приходится заново читать файлы, искать по репозиторию и тратить контекст на куски кода. Graphify решает это через граф знаний: один раз строит карту проекта, а потом агент спрашивает ее вместо бесконечного grep и чтения файлов.

После запуска /graphify . появляются три артефакта:
- graph.html интерактивная карта в браузере
- GRAPH_REPORT.md понятный отчет с главными узлами, связями и вопросами
- graph.json граф, который агент может спрашивать через CLI или MCP

Что интересно внутри:
🔵 код парсится локально через tree-sitter: классы, функции, импорты, вызовы, SQL-схемы и связи
🔵 docs, PDF, изображения, видео и Google Workspace можно добавлять в тот же граф
🔵 есть MCP-сервер с инструментами query_graph, get_node, shortest_path, list_prs, get_pr_impact
🔵 поддерживаются Claude Code, Codex, OpenCode, Cursor, Kilo Code, Hermes, OpenClaw, Gemini CLI, Devin CLI и другие агенты
🔵 можно поставить hooks, чтобы после коммитов граф обновлялся сам

Установка:
uv tool install graphifyy
graphify install
/graphify .

Для команд это особенно кдобно: graphify-out/ можно коммитить в репозиторий, и новые агентные сессии сразу получают готовую память проекта. Агент видит, где авторизация, где база, какие модули связаны, какие PR задевают те же части системы и где может быть конфликт.

Бонусом статья - 📎 Второй мозг в Claude на Obsidian: практический гайд

ЧАТ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

822 views19:53

Продолжаем изучать тему лупов

✍️

🔵

AI loops: что это такое и где они реально работают

База: что такое loop, зачем нужны проверка, состояние и лимиты, где это помогает, а где просто сжигает токены.

Подойдет тем, кто пока использует ИИ через одиночные запросы и хочет понять следующий уровень.

🔵

Loop engineering: как заставить агента кодить ночью и не сжечь бюджет

Практика для разработки: STATUS.md, skills, worktrees, MCP, субагенты, бюджетные стопы и утренний отчет вместо стены логов.

Подойдет разработчикам и тимлидам, которые хотят запускать кодинг агентов в репозитории безопаснее.

🔵

Один loop, 259 PR в месяц: практическая схема loop engineering

Схема полноценного loop: 6 частей, первые задачи, ограничители, типичные сбои и дешевые альтернативы.

Начинайте с маленького повторяемого процесса, где есть автоматическая проверка, лимит шагов и понятный результат.

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

754 views08:15

🔱Hermes Agent раскрывается постепенно. Сначала это просто запросы в Telegram или терминале: найти, сравнить, поправить файл, запустить команду. Дальше появляется память, SOUL.md, skills, MCP, sub-agents, cron jobs, профили и отдельные рабочие агенты под разные задачи.

📎

15 уровней Hermes Agent. Тут хорошо видно, на каком этапе вы сейчас и какой следующий шаг даст больше всего пользы.

Самый интересный момент начинается после cron jobs. Если агент каждый день приносит результат, он должен учиться на обратной связи.

Для этого есть 📎Hermes Sensei Loop: агент собирает замечания, проверяет новый prompt на holdout-наборе и продвигает изменения только если качество реально выросло.

Сначала доведите Hermes до уровня, где он стабильно делает работу без ручного вмешательства. Потом добавляйте лупы, чтобы они улучшали workflow, а не просто запускал старые задачи по расписанию.

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥3

774 views18:21

Если пользуетесь Codex CLI - проверьте ~/.codex

В Codex нашли неприятный баг с локальными логами: CLI слишком подробно писал TRACE/WebSocket/telemetry события в SQLite:

~/.codex/logs_2.sqlite
~/.codex/logs_2.sqlite-wal
~/.codex/logs_2.sqlite-shm

В issue #28224 один сетап экстраполировали до ~640 TB записей в год на SSD. Размер файла при этом может не выглядеть страшно: WAL крутится и перезаписывается, а износ диска всё равно происходит.

Если файлы уже разрослись, закройте Codex и удалите их:

rm -f ~/.codex/logs_2.sqlite*

Фикс уже вошёл в обновление 0.142.0

чат

😱2

757 views08:50

Looper (188 ⭐️) - скилл, который помогает спроектировать loop до запуска.

Если плохо описать /goal или /loop, агент быстро сожжет токены и будет уверенно крутиться вокруг плохой задачи. Looper добавляет шаг - сначала собирает нормальный цикл, потом отдает его Claude Code или другому агенту.

Вы запускаете /looper, а он интервьюирует вас по ключевым частям:
🔵 цель и контекст
🔵 что считается готовым результатом
🔵 проверки: команда, модель-судья или человек
🔵 отдельный reviewer/судья, например Claude проверяет работу Codex
🔵 лимиты по итерациям, времени, токенам и “нет прогресса”
🔵 файлы состояния: state.json, run-log.md, loop.yaml, RUN_IN_SESSION.md

Loop становится видимым артефактом. Его можно прочитать, поправить, переиспользовать, закоммитить и только потом запускать.

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2

2.03K views18:56

This media is not supported in your browser

VIEW IN TELEGRAM

Вышла новая японская модель Sakana Fugu (arxiv), навела шуму знатно, в X - 25 млн просмотров

Самая интересная часть - оркестрация

🔄

Снаружи это один API: вызываешь fugu или fugu-ultra, как обычную модель. Внутри Fugu решает, кого из агентного пула подключить, кому отдать подзадачу, где нужна проверка, а где достаточно одного сильного worker-а.

Полный пул моделей Sakana не раскрывает. В отчете фигурируют GPT-5.5, Claude Opus 4.8 и Gemini 3.1 Pro, но точные версии, правила маршрутизации и внутренние промпты закрыты.

У обычного Fugu логика ближе к умному роутингу: выбрать подходящую модель под шаг задачи.
У Fugu Ultra - полноценный workflow: несколько агентов, роли, промежуточные ответы, проверка, синтез.

Типичный паттерн из отчета: GPT строит решение, Opus приходит на этап дебага и находит уязвимости, после чего результат дорабатывается. В других задачах Fugu может устраивать дебаты, вызывать специалиста по теме или даже рекурсивно подключать Fugu как еще одного участника команды.

Установщик для Codex:
curl -fsSL https://sakana.ai/fugu/install | bash
потом:
codex-fugu

Цены на api:
fugu - вы платите только по стандартной ставке для конкретной базовой модели.
fugu-ultra - 5$ Input, 30$ Output, 0.5$ Cache.
Если контекст больше 272К, то 10$ Input, 45$ Output, 1$ Cache.

И есть подписка 20/100/200$. До конца июля получаете второй месяц бесплатно.

Теперь можно иметь свою фронтир модель, не имея модели 💃

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

737 views10:24

This media is not supported in your browser

VIEW IN TELEGRAM

Hermes Agent получил команду /learn, которая превращает документы, репозитории и рабочие процессы в навыки.

Hermes сам собирает контекст, пишет файл SKILL.md по стандарту и сохраняет его для будущих задач.

Документация /learn

Чтобы команда появилась, обновитесь через /update и выполните /restart. У меня он почему-то решил не перезагружаться в этот раз 👍

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

650 views17:03

Кому нужен светофор для Claude Code?

чат

🔥8😁6❤3❤‍🔥1

570 views09:49

OpenRouter MCP - живой каталог моделей для агентов

Подключаете его к Claude Code, Codex CLI, OpenCode или Cursor - и агент может сам спросить: какая модель сейчас лучше для кода, JSON extraction, длинных документов, дизайна, reranking, speech-to-text или дешевого прогона.

Что внутри:

🔵

models-list, model-get, model-endpoints - живой каталог моделей, цены, контекст, модальности, провайдеры, latency, throughput и data policy

🔵

benchmarks и rankings-daily - оценки из Artificial Analysis, Design Arena и тренды по использованию

🔵

chat-send - можно отправить тестовый запрос в несколько моделей и сравнить ответ, стоимость и провайдера

🔵

generation-get - показывает точную цену, токены и endpoint конкретного прогона

🔵

docs-search, credits-get, providers-list - поиск по документации, баланс и настройки маршрутизации

Подключение простое:

claude mcp add --transport http openrouter https://mcp.openrouter.ai/mcp
claude mcp login openrouter

или для Codex:

codex mcp add openrouter --url https://mcp.openrouter.ai/mcp
codex mcp login openrouter

Авторизация идет через OAuth. OpenRouter создает отдельный ключ только для MCP, по умолчанию на 7 дней и с лимитом $10. Почти все инструменты только читают данные. Платным становится chat-send, потому что он реально вызывает модели.

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

492 views18:19

Как AI-агенты учатся после каждого запуска

😘

Обычно все смотрят на модель и веса. Но в продуктах быстрее работают другие слои: harness, проверки, память, навыки и действия пользователей.

Самая сильная часть - агент может учиться на правках человека. Менеджер одобрил возврат, который агент завернул, причина попала в процедурную память, следующий похожий кейс обрабатывается умнее.

Разбор Karpathy AutoResearch, SEAL, AlphaEvolve, Hermes, OpenClaw, Anthropic Skills и AG-UI в одной статье:

📎

Как AI-агенты учатся на практике

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

1.94K views08:17

Репозиторий loop-engineering - набор шаблонов для AI-агентов, которые работают по циклу

Агент запускается по расписанию, читает память проекта, делает задачу, проверяет результат отдельным агентом и записывает, что произошло.

В репозитории собраны шаблоны для таких сценариев: ежедневная проверка проекта, сопровождение изменений в коде, реакция на упавшие тесты, обновление зависимостей, журнал запусков и лимиты расходов.

И есть статья, которая разбирает эту идею на более рискованном примере - автоматической торговой системе. Там цикл выглядит так: собрать рыночные данные, найти торговый сигнал, проверить его на исторических данных, исполнить сделку и следить за риском.

📎

Loop engineering: как собрать самоулучшающуюся торговую систему

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

552 views18:05

MoA в Hermes Agent - новый режим, где несколько моделей работают как один агент

🔱

Внутри есть модели-советники и главная модель.

Модели-советники читают задачу и дают приватные заметки: как подойти к решению, где могут быть ошибки, что стоит проверить. Пользователь их не видит, инструменты они не вызывают.

Главная модель получает эти заметки, собирает финальный ответ и уже сама работает как обычный Hermes: вызывает tools, продолжает /goal, пишет результат в чат.

На HermesBench связка Claude Opus 4.8 + GPT-5.5 дала результат выше, чем каждая модель отдельно: примерно +8% к Opus 4.8 и +11% к GPT-5.5.

Цена тоже растет: один шаг агента превращается в несколько вызовов моделей. Поэтому MoA больше подходит для сложных задач: архитектура, ревью, планирование, длинные исследования.

Начинается игра: кто лучше замиксует модели 💃

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤4🔥1

546 views08:18

Два свежих репозитория про то, как LLM становятся лучше

slime (7к⭐) - фреймворк для дообучения моделей на реальных задачах. Если агент пишет код, вызывает инструменты или решает задачу в несколько шагов, slime помогает собирать такие попытки, оценивать результат и улучшать модель.

DeepSpec (1к⭐) - проект DeepSeek для ускорения ответов. Идея простая: маленькая модель быстро набрасывает продолжение, большая модель проверяет сразу несколько токенов, и генерация идет быстрее.

Отдельно разобрал, как работает обучение агентов на попытках и ошибках через ART (10.2к⭐), GRPO и RULER:

📎

Как дообучать LLM

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

534 views18:49

Компания из одного человека обычно ломается не из-за нехватки идей. Чаще - из-за памяти и повторяемости.

Когда решения, клиентский контекст, заметки и черновики живут в разных местах, владелец быстро становится главным хранилищем, исполнителем и напоминалкой для самого себя.

В статье разобран рабочий контур для соло-предпринимателя: Obsidian как память, Claude Code как обработчик знаний, Claude Cowork как исполнитель для файлов, Hermes Agent как фоновый оператор в Telegram с навыками и расписаниями.

📎

Компания из одного человека: рабочая система на Obsidian, Claude и Hermes

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

Компания из одного человека: рабочая система на Obsidian, Claude и Hermes

Компанию из одного человека редко ломает нехватка идей. Чаще она ломается на памяти, производстве и повторяемости. В голове лежат решения, в заметках - куски исследований, в чатах - обещания клиентам, в файлах - черновики, которые никто больше не видит целиком.…

👍4

402 views11:57

Deepsec 4к ⭐ - сканер уязвимостей (агент) от Vercel Labs

Он сначала быстро проходит репозиторий правилами на регулярных выражениях и отмечает подозрительные места. Потом агент для кода читает файлы, контекст проекта из INFO.md и решает, есть ли реальная уязвимость.

🔵 автоматически использует как фолбек claude/codex подписку, либо настраиваете Vercel AI API
🔵 работает по стадиям: scan → process → revalidate → enrich → export
🔵 хранит состояние в .deepsec/data, поэтому упавший запуск можно повторить, уже обработанные файлы он пропустит
🔵 для PR есть process --diff: проверяет только измененные файлы и готовит комментарий в Markdown
🔵 свои правила поиска можно писать под фреймворк, авторизацию, RPC или внутренний SDK

Старт:
npx deepsec init
cd .deepsec && pnpm install
pnpm deepsec scan
pnpm deepsec process
pnpm deepsec revalidate

Честно предупреждают про стоимость: полный прогон большой кодовой базы может стоить тысячи долларов. Нормальный вход - начать с --limit 50, заполнить короткий INFO.md, прогнать HIGH через revalidate, а потом добавить правила под свои реальные точки входа.

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

475 views08:26