Agents Lab

Кому нужен светофор для Claude Code?

чат

🔥8😁6❤3❤‍🔥1

577 views09:49

OpenRouter MCP - живой каталог моделей для агентов

Подключаете его к Claude Code, Codex CLI, OpenCode или Cursor - и агент может сам спросить: какая модель сейчас лучше для кода, JSON extraction, длинных документов, дизайна, reranking, speech-to-text или дешевого прогона.

Что внутри:

🔵

models-list, model-get, model-endpoints - живой каталог моделей, цены, контекст, модальности, провайдеры, latency, throughput и data policy

🔵

benchmarks и rankings-daily - оценки из Artificial Analysis, Design Arena и тренды по использованию

🔵

chat-send - можно отправить тестовый запрос в несколько моделей и сравнить ответ, стоимость и провайдера

🔵

generation-get - показывает точную цену, токены и endpoint конкретного прогона

🔵

docs-search, credits-get, providers-list - поиск по документации, баланс и настройки маршрутизации

Подключение простое:

claude mcp add --transport http openrouter https://mcp.openrouter.ai/mcp
claude mcp login openrouter

или для Codex:

codex mcp add openrouter --url https://mcp.openrouter.ai/mcp
codex mcp login openrouter

Авторизация идет через OAuth. OpenRouter создает отдельный ключ только для MCP, по умолчанию на 7 дней и с лимитом $10. Почти все инструменты только читают данные. Платным становится chat-send, потому что он реально вызывает модели.

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

499 views18:19

Agents Lab

Как AI-агенты учатся после каждого запуска

😘

Обычно все смотрят на модель и веса. Но в продуктах быстрее работают другие слои: harness, проверки, память, навыки и действия пользователей.

Самая сильная часть - агент может учиться на правках человека. Менеджер одобрил возврат, который агент завернул, причина попала в процедурную память, следующий похожий кейс обрабатывается умнее.

Разбор Karpathy AutoResearch, SEAL, AlphaEvolve, Hermes, OpenClaw, Anthropic Skills и AG-UI в одной статье:

📎

Как AI-агенты учатся на практике

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

2.02K views08:17

Agents Lab

Репозиторий loop-engineering - набор шаблонов для AI-агентов, которые работают по циклу

Агент запускается по расписанию, читает память проекта, делает задачу, проверяет результат отдельным агентом и записывает, что произошло.

В репозитории собраны шаблоны для таких сценариев: ежедневная проверка проекта, сопровождение изменений в коде, реакция на упавшие тесты, обновление зависимостей, журнал запусков и лимиты расходов.

И есть статья, которая разбирает эту идею на более рискованном примере - автоматической торговой системе. Там цикл выглядит так: собрать рыночные данные, найти торговый сигнал, проверить его на исторических данных, исполнить сделку и следить за риском.

📎

Loop engineering: как собрать самоулучшающуюся торговую систему

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

572 views18:05

Agents Lab

MoA в Hermes Agent - новый режим, где несколько моделей работают как один агент

🔱

Внутри есть модели-советники и главная модель.

Модели-советники читают задачу и дают приватные заметки: как подойти к решению, где могут быть ошибки, что стоит проверить. Пользователь их не видит, инструменты они не вызывают.

Главная модель получает эти заметки, собирает финальный ответ и уже сама работает как обычный Hermes: вызывает tools, продолжает /goal, пишет результат в чат.

На HermesBench связка Claude Opus 4.8 + GPT-5.5 дала результат выше, чем каждая модель отдельно: примерно +8% к Opus 4.8 и +11% к GPT-5.5.

Цена тоже растет: один шаг агента превращается в несколько вызовов моделей. Поэтому MoA больше подходит для сложных задач: архитектура, ревью, планирование, длинные исследования.

Начинается игра: кто лучше замиксует модели 💃

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤4🔥1

570 views08:18

Agents Lab

Два свежих репозитория про то, как LLM становятся лучше

slime (7к⭐) - фреймворк для дообучения моделей на реальных задачах. Если агент пишет код, вызывает инструменты или решает задачу в несколько шагов, slime помогает собирать такие попытки, оценивать результат и улучшать модель.

DeepSpec (1к⭐) - проект DeepSeek для ускорения ответов. Идея простая: маленькая модель быстро набрасывает продолжение, большая модель проверяет сразу несколько токенов, и генерация идет быстрее.

Отдельно разобрал, как работает обучение агентов на попытках и ошибках через ART (10.2к⭐), GRPO и RULER:

📎

Как дообучать LLM

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

553 views18:49

Agents Lab

Компания из одного человека обычно ломается не из-за нехватки идей. Чаще - из-за памяти и повторяемости.

Когда решения, клиентский контекст, заметки и черновики живут в разных местах, владелец быстро становится главным хранилищем, исполнителем и напоминалкой для самого себя.

В статье разобран рабочий контур для соло-предпринимателя: Obsidian как память, Claude Code как обработчик знаний, Claude Cowork как исполнитель для файлов, Hermes Agent как фоновый оператор в Telegram с навыками и расписаниями.

📎

Компания из одного человека: рабочая система на Obsidian, Claude и Hermes

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

Telegraph

Компания из одного человека: рабочая система на Obsidian, Claude и Hermes

Компанию из одного человека редко ломает нехватка идей. Чаще она ломается на памяти, производстве и повторяемости. В голове лежат решения, в заметках - куски исследований, в чатах - обещания клиентам, в файлах - черновики, которые никто больше не видит целиком.…

👍4

416 views11:57

Agents Lab

Deepsec 4к ⭐ - сканер уязвимостей (агент) от Vercel Labs

Он сначала быстро проходит репозиторий правилами на регулярных выражениях и отмечает подозрительные места. Потом агент для кода читает файлы, контекст проекта из INFO.md и решает, есть ли реальная уязвимость.

🔵 автоматически использует как фолбек claude/codex подписку, либо настраиваете Vercel AI API
🔵 работает по стадиям: scan → process → revalidate → enrich → export
🔵 хранит состояние в .deepsec/data, поэтому упавший запуск можно повторить, уже обработанные файлы он пропустит
🔵 для PR есть process --diff: проверяет только измененные файлы и готовит комментарий в Markdown
🔵 свои правила поиска можно писать под фреймворк, авторизацию, RPC или внутренний SDK

Старт:
npx deepsec init
cd .deepsec && pnpm install
pnpm deepsec scan
pnpm deepsec process
pnpm deepsec revalidate

Честно предупреждают про стоимость: полный прогон большой кодовой базы может стоить тысячи долларов. Нормальный вход - начать с --limit 50, заполнить короткий INFO.md, прогнать HIGH через revalidate, а потом добавить правила под свои реальные точки входа.

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

504 views08:26

Agents Lab

Karpathy недавно дал хорошую рамку для агентной разработки: агентов уже мало просто запустить. Их нужно проектировать через спецификации, evals, ревью, безопасность, наблюдаемость и понятный путь до production.

В 📎статье показано, как Google Agents CLI пытается собрать это в один процесс: установка skills для coding agent, сборка RAG-агента, локальные проверки, eval suite, развертывание в Agent Runtime и публикация в Gemini Enterprise.

Если делаете внутренних ассистентов, RAG или агентов на ADK, это хороший пример того, как довести прототип до сервиса для команды.

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

Telegraph

Agentic Engineering с нормальными инструментами: Google Agents CLI на практике

Karpathy назвал Agentic Engineering дисциплиной для работы с агентами в боевых системах. В ней разработчик отвечает за спецификацию, eval loops, ревью изменений, безопасность и качество результата. Проблема в том, что реальный цикл разработки агента обычно…

👍1

1.47K views20:04

Agents Lab

Hermes Agent получил апдейт для больших multi-agent запусков🔱

Главное - AsyncSessionDB: обращения к SQLite в gateway вынесли с event loop в рабочий поток.

Для нас это означает меньше зависаний, когда параллельно живут сессии, сигналы активности и Kanban-задачи.

Второй апдейт - /usage. Теперь в чате видно, куда уходит контекст: системный промпт, инструменты, правила, skills, MCP, subagents, memory и сам диалог.

чат

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

457 views09:00

Agents Lab

Вышла Claude Sonnet 5

💬

Лучше предшественника, слабее опуса. Обновление рабочей лошадки.

Чат | CloseRouter

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1👎1

416 views19:06

Claude Fable 5 вернут в течении суток

🎉

Ужесточили гарды, классификатор для модели. Еще чаще будет фолбекать на Opus 4.8 на запрещенных темах.

Доступна по подписке до 7 июля и только до 50% лимитов можно потратить.

Hermes Agent работает с web до 60 раз быстрее и в 49 раз дешевле

🔱

Web_extract перестал прогонять каждую большую страницу через LLM-саммаризатор.

🔵Если страница до 15000 символов - возвращают целиком
🔵Если больше - берут head+tail окно примерно 75/25
🔵Полный текст сохраняют в cache/web/<slug>-<hash>.md
🔵В ответ добавляют footer с путем к файлу и подсказкой для read_file
🔵Inline base64-картинки заменяют на [IMAGE: alt], чтобы не забивать контекст

Главный инсайт из PR:
Мы платили LLM round-trip за сжатие markdown, который backend уже вернул чистым.

Ускорили не сам скрапинг, а post-processing после него. Убрали генерацию, чанкинг, синтез и ожидание auxiliary-модели. Сохранили доступ к полному тексту через файл, поэтому качество восстановления ответа осталось тем же.

Чат | CloseRouter

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6👎1

298 views07:56

About

Blog

Apps

Platform