Agents Lab
740 subscribers
39 photos
24 videos
127 links
Обсуждаем AI агентов

Наш чатик https://t.me/agents_lab_community
Download Telegram
OpenRouter MCP - живой каталог моделей для агентов

Подключаете его к Claude Code, Codex CLI, OpenCode или Cursor - и агент может сам спросить: какая модель сейчас лучше для кода, JSON extraction, длинных документов, дизайна, reranking, speech-to-text или дешевого прогона.

Что внутри:

🔵 models-list, model-get, model-endpoints - живой каталог моделей, цены, контекст, модальности, провайдеры, latency, throughput и data policy

🔵 benchmarks и rankings-daily - оценки из Artificial Analysis, Design Arena и тренды по использованию

🔵 chat-send - можно отправить тестовый запрос в несколько моделей и сравнить ответ, стоимость и провайдера

🔵 generation-get - показывает точную цену, токены и endpoint конкретного прогона

🔵 docs-search, credits-get, providers-list - поиск по документации, баланс и настройки маршрутизации

Подключение простое:
claude mcp add --transport http openrouter https://mcp.openrouter.ai/mcp
claude mcp login openrouter

или для Codex:
codex mcp add openrouter --url https://mcp.openrouter.ai/mcp
codex mcp login openrouter


Авторизация идет через OAuth. OpenRouter создает отдельный ключ только для MCP, по умолчанию на 7 дней и с лимитом $10. Почти все инструменты только читают данные. Платным становится chat-send, потому что он реально вызывает модели.

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Как AI-агенты учатся после каждого запуска 😘

Обычно все смотрят на модель и веса. Но в продуктах быстрее работают другие слои: harness, проверки, память, навыки и действия пользователей.

Самая сильная часть - агент может учиться на правках человека. Менеджер одобрил возврат, который агент завернул, причина попала в процедурную память, следующий похожий кейс обрабатывается умнее.

Разбор Karpathy AutoResearch, SEAL, AlphaEvolve, Hermes, OpenClaw, Anthropic Skills и AG-UI в одной статье:

📎 Как AI-агенты учатся на практике

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Репозиторий loop-engineering - набор шаблонов для AI-агентов, которые работают по циклу

Агент запускается по расписанию, читает память проекта, делает задачу, проверяет результат отдельным агентом и записывает, что произошло.

В репозитории собраны шаблоны для таких сценариев: ежедневная проверка проекта, сопровождение изменений в коде, реакция на упавшие тесты, обновление зависимостей, журнал запусков и лимиты расходов.

И есть статья, которая разбирает эту идею на более рискованном примере - автоматической торговой системе. Там цикл выглядит так: собрать рыночные данные, найти торговый сигнал, проверить его на исторических данных, исполнить сделку и следить за риском.

📎 Loop engineering: как собрать самоулучшающуюся торговую систему

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
MoA в Hermes Agent - новый режим, где несколько моделей работают как один агент 🔱

Внутри есть модели-советники и главная модель.

Модели-советники читают задачу и дают приватные заметки: как подойти к решению, где могут быть ошибки, что стоит проверить. Пользователь их не видит, инструменты они не вызывают.

Главная модель получает эти заметки, собирает финальный ответ и уже сама работает как обычный Hermes: вызывает tools, продолжает /goal, пишет результат в чат.

На HermesBench связка Claude Opus 4.8 + GPT-5.5 дала результат выше, чем каждая модель отдельно: примерно +8% к Opus 4.8 и +11% к GPT-5.5.

Цена тоже растет: один шаг агента превращается в несколько вызовов моделей. Поэтому MoA больше подходит для сложных задач: архитектура, ревью, планирование, длинные исследования.

Начинается игра: кто лучше замиксует модели 💃

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🔥1
Два свежих репозитория про то, как LLM становятся лучше

slime (7к) - фреймворк для дообучения моделей на реальных задачах. Если агент пишет код, вызывает инструменты или решает задачу в несколько шагов, slime помогает собирать такие попытки, оценивать результат и улучшать модель.

DeepSpec (1к) - проект DeepSeek для ускорения ответов. Идея простая: маленькая модель быстро набрасывает продолжение, большая модель проверяет сразу несколько токенов, и генерация идет быстрее.

Отдельно разобрал, как работает обучение агентов на попытках и ошибках через ART (10.2к), GRPO и RULER:
📎 Как дообучать LLM

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Компания из одного человека обычно ломается не из-за нехватки идей. Чаще - из-за памяти и повторяемости.

Когда решения, клиентский контекст, заметки и черновики живут в разных местах, владелец быстро становится главным хранилищем, исполнителем и напоминалкой для самого себя.

В статье разобран рабочий контур для соло-предпринимателя: Obsidian как память, Claude Code как обработчик знаний, Claude Cowork как исполнитель для файлов, Hermes Agent как фоновый оператор в Telegram с навыками и расписаниями.

📎 Компания из одного человека: рабочая система на Obsidian, Claude и Hermes

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Deepsec - сканер уязвимостей (агент) от Vercel Labs

Он сначала быстро проходит репозиторий правилами на регулярных выражениях и отмечает подозрительные места. Потом агент для кода читает файлы, контекст проекта из INFO.md и решает, есть ли реальная уязвимость.

🔵 автоматически использует как фолбек claude/codex подписку, либо настраиваете Vercel AI API
🔵 работает по стадиям: scan → process → revalidate → enrich → export
🔵 хранит состояние в .deepsec/data, поэтому упавший запуск можно повторить, уже обработанные файлы он пропустит
🔵 для PR есть process --diff: проверяет только измененные файлы и готовит комментарий в Markdown
🔵 свои правила поиска можно писать под фреймворк, авторизацию, RPC или внутренний SDK

Старт:
npx deepsec init
cd .deepsec && pnpm install
pnpm deepsec scan
pnpm deepsec process
pnpm deepsec revalidate

Честно предупреждают про стоимость: полный прогон большой кодовой базы может стоить тысячи долларов. Нормальный вход - начать с --limit 50, заполнить короткий INFO.md, прогнать HIGH через revalidate, а потом добавить правила под свои реальные точки входа.

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Karpathy недавно дал хорошую рамку для агентной разработки: агентов уже мало просто запустить. Их нужно проектировать через спецификации, evals, ревью, безопасность, наблюдаемость и понятный путь до production.

В 📎статье показано, как Google Agents CLI пытается собрать это в один процесс: установка skills для coding agent, сборка RAG-агента, локальные проверки, eval suite, развертывание в Agent Runtime и публикация в Gemini Enterprise.

Если делаете внутренних ассистентов, RAG или агентов на ADK, это хороший пример того, как довести прототип до сервиса для команды.

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Hermes Agent получил апдейт для больших multi-agent запусков🔱

Главное - AsyncSessionDB: обращения к SQLite в gateway вынесли с event loop в рабочий поток.

Для нас это означает меньше зависаний, когда параллельно живут сессии, сигналы активности и Kanban-задачи.

Второй апдейт - /usage. Теперь в чате видно, куда уходит контекст: системный промпт, инструменты, правила, skills, MCP, subagents, memory и сам диалог.

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Вышла Claude Sonnet 5 💬

Лучше предшественника, слабее опуса. Обновление рабочей лошадки.

Чат | CloseRouter
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1👎1
Media is too big
VIEW IN TELEGRAM
Claude Fable 5 вернут в течении суток 🎉

Ужесточили гарды, классификатор для модели. Еще чаще будет фолбекать на Opus 4.8 на запрещенных темах.

Доступна по подписке до 7 июля и только до 50% лимитов можно потратить.


Hermes Agent работает с web до 60 раз быстрее и в 49 раз дешевле 🔱

Web_extract перестал прогонять каждую большую страницу через LLM-саммаризатор.

🔵Если страница до 15000 символов - возвращают целиком
🔵Если больше - берут head+tail окно примерно 75/25
🔵Полный текст сохраняют в cache/web/<slug>-<hash>.md
🔵В ответ добавляют footer с путем к файлу и подсказкой для read_file
🔵Inline base64-картинки заменяют на [IMAGE: alt], чтобы не забивать контекст

Главный инсайт из PR:
Мы платили LLM round-trip за сжатие markdown, который backend уже вернул чистым.

Ускорили не сам скрапинг, а post-processing после него. Убрали генерацию, чанкинг, синтез и ожидание auxiliary-модели. Сохранили доступ к полному тексту через файл, поэтому качество восстановления ответа осталось тем же.

Чат | CloseRouter
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👎1