Agents Lab
741 subscribers
39 photos
24 videos
127 links
Обсуждаем AI агентов

Наш чатик https://t.me/agents_lab_community
Download Telegram
Пара интересных репозиториев 💻

🔵Agent Reach - интернет-доступ для агента

Репозиторий ставит агенту готовые маршруты к YouTube, GitHub, RSS, V2EX, Bilibili, Twitter/X, Reddit, XiaoHongShu, LinkedIn, Xueqiu и другим источникам.

Агент запускает agent-reach doctor, видит, какой backend сейчас рабочий, и дальше использует нужный CLI или MCP-инструмент.

Для примера, как устроена авторизация:

X/Twitter
- для расширенных сценариев нужны cookies;
- пользователь заходит в X в браузере;
- через Cookie-Editor экспортирует Header String;
- агент сохраняет это командой agent-reach configure twitter-cookies "..."
- локально можно попробовать автоизвлечение из Chrome через agent-reach configure --from-browser chrome.

Reddit
- zero-config пути нет: анонимные интерфейсы заблокированы, официальный API требует ручного доступа;
- на десктопе рекомендуют OpenCLI, который использует уже существующую браузерную сессию;
- на сервере или без браузера - rdt-cli + cookies, обычно через rdt login.

🔵Ponytail - Заставляет вашего ИИ-агента думать как самый ленивый senior dev в комнате.

Это навык и набор адаптеров для Claude Code, Codex, OpenCode, Pi, Cursor, Windsurf, Cline, Copilot и Kiro.

Перед тем как писать код, агент проходит простую лестницу:

- это вообще нужно делать?
- есть ли готовое в стандартной библиотеке?
- есть ли нативная возможность платформы?
- уже стоит зависимость, которая это умеет?
- можно ли решить одной строкой?
- только потом - минимум кода, который работает.

Есть режимы lite/full/ultra и отдельный ponytail-review, который ищет, что удалить из диффа: лишние зависимости, абстракции на будущее, самописные версии стандартной библиотеки и код “на всякий случай”.

Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
3
codex-lb 1.9к - слой управления для Codex и ChatGPT аккаунтов

Самостоятельный прокси для тех, кто запускает Codex CLI, OpenCode, OpenClaw или своих агентов через OpenAI-совместимый API.

Сервис поднимает локальный API на :2455, принимает /v1 и /backend-api/codex, распределяет запросы по пулу своих ChatGPT аккаунтов и показывает расход в панели управления: токены, стоимость, лимитные окна, здоровье аккаунтов, последние запросы и отчеты.

Что есть внутри:
🔵 OAuth-добавление аккаунтов и автообновление токенов
🔵 API-ключи для клиентов с лимитами по модели, токенам, стоимости и сроку
🔵 закрепление сессий за аккаунтом, переключение при сбоях и прогрев лимитов
🔵 поддержка WebSocket/SSE, /v1/responses, /v1/chat/completions, файлов, изображений и аудио
🔵 Docker, uvx codex-lb, Helm, SQLite по умолчанию и PostgreSQL для боевого запуска

Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
/goal можно использовать не только вручную

Можно попросить вашего агента заспавнить нового агента и назначить ему цель.

Проверил: работает не только в Codex, но и в OpenClaw и Hermes.

Также в комментариях поделились таким шаблоном:
Создай [объект] в [технологии/фреймворке]. Он должен включать [основные функции] с [деталями взаимодействия/анимации/поведения]. Создай [настроение/качество] с помощью [визуальных деталей], [деталей окружения] и [дополнительных эффектов]. Выведи результат в [формате/типе файла].

Для этой задачи напиши себе новую цель и запустите агентов параллельно — столько, сколько потребуется для более эффективного и быстрого выполнения. Раздели работу на независимые части, запускай их одновременно и синтезируй результаты по мере их поступления. Назначь каждому агенту свою собственную цель.


Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
Omnigent 1.8к - общий слой для Claude Code, Codex, Pi и своих AI-агентов

Свежий репозиторий, создан 11 июня. Идея в том, чтобы запускать разные агентные обвязки через один CLI, сервер и веб-интерфейс. Агент может стартовать в терминале, продолжить в браузере или на телефоне, а сессия сохраняет сообщения, субагентов, терминалы и файлы.

Что внутри:
🔵 CLI omnigent / omnigent claude, omnigent codex
🔵 веб-интерфейс и приложение для macOS
🔵 YAML-спеки для своих агентов: промпт, модель, инструменты, MCP, подагенты, терминалы, доступ к файловой системе
🔵 сервер с сессиями, fork, attach, шарингом, комментариями, правами и API
🔵 политики для контроля агентов: подтверждение shell/file действий, лимиты инструментов, бюджет, GitHub/Google-доступ, риск-скоринг
🔵 sandbox через bubblewrap на Linux и seatbelt на macOS
🔵 MCP через stdio, SSE и Streamable HTTP
🔵 деплой через Docker, Render, Railway, Fly, Modal, Hugging Face Spaces

Самое интересное в примерах.

Polly - агент-техлид для разработки. Он сам код не пишет: раскладывает задачу на подагентов Claude Code, Codex и Pi, запускает их в отдельных git worktree, требует ревью другим поставщиком и отдаёт PR человеку.

Debby - двухголовый брейнсторминг. Один ответ идёт от Claude, второй от GPT, потом можно включить debate skill и заставить модели покритиковать друг друга перед финальной сводкой.

Архитектура тоже здраво разделена: сервер хранит историю, права, UI и координацию, а раннер выполняет агентный цикл на вашей машине или в облачном sandbox.

Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
agentmemory 23к - память для кодинг-агентов

Обычная память агента часто сводится к CLAUDE.md / AGENTS.md - статичные правила проекта. Хорошо для “как писать код”, плохо для истории работы.

agentmemory делает отдельный слой памяти для рабочих фактов: что уже пробовали, какие решения приняли, где была ошибка, какие файлы трогали, чем закончилась прошлая сессия.

Как это устроено:
🔵 хуки агента ловят события: старт сессии, запрос пользователя, вызовы инструментов, ошибки, compact, stop
🔵 сырые наблюдения чистятся от секретов, сжимаются и превращаются в факты, концепты, связи и краткие самари
🔵 поиск идет не только по ключевым словам, а через BM25 + векторы + граф связей
🔵 перед новой сессией агент может получить только релевантные куски памяти, а не весь архив подряд

Что дают MCP и skills:

Через MCP - Claude Code, Codex, Cursor, OpenCode, Hermes и другие получают инструменты вроде memory_save, memory_smart_search, memory_sessions, memory_timeline.

skills - это инструкция агенту, когда этими MCP пользоваться. Без skills модель может видеть инструменты, но не понимать, в каких ситуациях нужно сохранить решение или поднять прошлый контекст.

Самый быстрый старт:
npm install -g @agentmemory/agentmemory
agentmemory
agentmemory connect claude-code
npx skills add rohitg00/agentmemory -y


Работает почти со всеми агентами.
По умолчанию может работать без LLM-провайдера - тогда память работает через BM25 и локальные embeddings. Чтобы она полноценно заработала, нужно подключить обычную модель, советуют использовать не топовые. Например: deepseek/deepseek-v4-pro и qwen/qwen3-coder

Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Factory 2.0 - кодинг-агенты превращаются в фабрику разработки 💃

Factory.ai, команда создавшая агента Droid, показала Factory 2.0.

Если ускорить только написание кода, бутылочные горлышки переедут в разбор задач, тесты, ревью, релизы, деплой и мониторинг. Поэтому Factory предлагает смотреть на весь цикл разработки как на одну агентную систему.

Входом может быть багрепорт, сообщение от клиента, внутренняя хотелка или бизнес-требование. Дальше это проходит через разбор, план, код, тесты, ревью, релиз, наблюдение и снова возвращается в цикл как новые сигналы.

Что внутри их software factory:
🔵 разные модели под разные задачи, с роутером по цене, скорости и качеству
🔵 контроль над контекстом и данными: свои ключи, свой контур данных, отдельный регион или закрытая сеть
🔵 общая память и контекст для ревью, безопасности, QA, документации и инцидентов
🔵 панель управления в Factory Desktop App: очереди, триаж тикетов, PR-проверки, деплои, мониторинг и узкие места

По словам Factory, такие фабрики уже работают у NVIDIA, EY, Adobe, Palo Alto Networks, Adyen, Blackstone, Wipro и Comarch.

Самое интересное тут направление. Кодинг-агент решает кусок работы. Следующий слой - система вокруг него: задачи, права, логи, проверки, память, отчеты и понятная панель по всей цепочке.

Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
💬 Anthropic разобрали ~400к Claude Code-сессий - и это редкий снимок того, как кодовые агенты работают в реальности.

Самое важное:
🔵 люди принимают ~70% решений о плане, Claude берет ~80% решений об исполнении.
🔵 профессия разработчика стала менее решающей: в кодовых сессиях разные профессии почти догоняют software engineers по успеху.
🔵 экспертиза в предметной области все равно решает - такие пользователи получают больше полезных действий агента на один запрос.
🔵 задачи сдвигаются от дебага к end-to-end работе: деплой, запуск кода, анализ данных, документы. Оценочная стоимость типовой задачи выросла примерно на 25%.

Также, чтобы вы не скучали, перевел две статьи, первая продвинутая, вторая попроще:

📎 Проектирование циклов для AI-агентов - как создавать agent loop, проверки, событийные запуски и цикл улучшения.

📎 Три способа, которыми Codex может пользоваться компьютером - когда выбирать @Computer, @Chrome, @Browser, а когда лучше идти через плагин или MCP.

Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🔄 SwarmForge (900) от Дяди Боба

Uncle Bob (автор книги Clean Code) выкатил свой агентный оркестратор для разработки: локальная связка tmux, git worktree, Babashka-скриптов и файловой "почты" между агентами.

Самое необычное - проект разложен по веткам. main хранит документацию и общие скрипты, а рабочие флоу лежат отдельно:

- two-pack - быстрый цикл coder -> cleaner -> coder
- four-pack - спецификация, код, рефакторинг, архитектура
- six-pack - полный конвейер specifier -> coder -> cleaner -> architect -> hardender -> QA
- adversaries - отдельный цикл coder <-> reviewer, где ревьюер гоняет кодера до approval

Каждая роль запускается как отдельный агент в своей tmux-сессии и своем git worktree. В конфиге можно выбрать CLI для роли: codex, claude, copilot, grok. По умолчанию примеры идут на Codex.

Интересная часть - handoff-протокол. Агенты не шлют друг другу длинные сообщения в чат. Они кладут маленькие типизированные файлы в outbox: git_handoff, note, awake. Демон проверяет формат, раскладывает задачи по inbox получателей и будит нужную tmux-сессию.

По сути это не "рой агентов, которым дали общий промпт", а инженерный конвейер с ролями, очередями, коммитами, приоритетами и аудитом.

В полном six-pack чувствуется почерк Дяди Боба: Gherkin-спеки, TDD, acceptance tests, CRAP/DRY, mutation testing, архитектурные границы, финальная QA-проверка через пользовательский интерфейс.

Клевая идея рабочих деревьев под роли, а не под задачи. Агент не просто берет тикет, он живет в своей профессиональной зоне ответственности: спецификация, код, чистка, архитектура, харденинг, QA.

Интересно взглянуть на первый коммит в репозитории. Там есть md файлы, которые описывают принципы работы и разработки самого SwarmForge, для понимания, что сувать в контекст агента для кодинга, полезно.
📎 Перевод MD файлов из коммита

Как образец агентного SDLC с жесткой инженерной дисциплиной - репозиторий очень любопытный.

Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
SpaceX договорились купить компанию Cursor за $60 млрд. По Reuters, сделка акциями должна закрыться в Q3 2026, а Cursor становится частью большого AI-контура SpaceX/xAI.

На этом фоне Cursor запускает Origin - свой GitHub для эпохи AI-агентов. Это git-платформа, где репозиторий сразу проектируется под работу людей и множества агентов: код, ветки, ревью, фоновые задачи и агентные изменения в одном месте.

Параллельно Vercel показал Eve - open-source фреймворк для production-агентов. Главная идея простая: agent is a directory.

В папке агента лежат:

- instructions.md - роль и правила
- tools/ - инструменты на TypeScript
- skills/ - переиспользуемые навыки
- subagents/ - дочерние агенты
- channels/ - Slack, Discord, Teams, web
- schedules/ - запуск по расписанию

Агенты быстро обрастают собственной инфраструктурой: им уже нужен хостинг кода, очередь задач, ревью, навыки, расписания и безопасные инструменты вокруг проекта.

Чат
AGENTS.md - инструкция для AI-агентов в репозитории

Собрал понятный гайд: как писать AGENTS.md, чтобы его понимали Codex, Claude Code, Hermes, OpenCode, OpenClaw и другие агенты.

🔵 Что класть в файл
🔵 Как описывать команды, тесты и запреты
🔵 Как сделать совместимость с CLAUDE.md
🔵 Пара шаблонов

📎Читать статью

Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🙏1
Свежие новости по агентам 📰

🔵 Codex Record & Replay - OpenAI добавил запись действий на Mac: пользователь один раз показывает процесс, а Codex превращает его в skill для повторного запуска через Computer Use, браузер и плагины.

🔵 Grok Build быстро развивается: AGENTS.md, skills, hooks, plugins, MCP, subagents, ACP, headless mode и панель сессий.

🔵 CEO-Bench - новый тест от Princeton для долгих агентных задач.

Агенту дают симулированный AI-стартап, $1M стартового баланса и 500 дней управления. Он принимает решения по продукту, рынку, клиентам и росту, видит панели с метриками, базу данных, соцсети, отчеты и историю переговоров, но скрытые параметры ему приходится выводить по косвенным сигналам: спрос, отток пользователей, удовлетворенность клиентов и действия конкурентов.

Это ближе к реальной работе агента-оператора, чем обычные coding evals. Ошибка может проявиться через недели, одно решение влияет на несколько частей системы, а “увидел метрику - внес патч” быстро ломается.

Результат пока жесткий: большинство моделей не заканчивают выше стартового $1M. На лучшем прогоне выше старта вышли Claude Fable 5, Claude Opus 4.8 и GPT-5.5, но стабильно выше старта больше одного раза оказался только Fable 5.

🔵 Основатель Howie написал сильный тред о том, как они довели AI помощника по планированию до 50% автономности.

Категория сложная для агента: если ассистент ошибся в переписке с кандидатом, инвестором или клиентом, пользователь его просто увольняет. Там слишком много редких и неприятных случаев: таймзоны, поездки, переносы, приватность календаря, разные типы встреч, моменты когда лучше спросить человека отдельно, а когда можно отвечать самому.

Команда пошла через людей в контуре проверки: собрала команду, которая ловила ошибки и помогала описывать, как должен действовать сильный личный ассистент руководителя в странных ситуациях. Потом на этом выросла карта нестандартных случаев: синтетический эталонный набор данных, проверки качества, fine-tuning, RL, ACE, DSPy, подагенты и новые версии рабочей обвязки.

Они не начинали с обещания полной автономности. Они сначала построили доверие и контроль качества, а уже потом постепенно отпускали руль. Сейчас Howie, по словам основателя, дошел до тысяч встреч в день и 50% автономности без роста оттока пользователей и жалоб.

Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
Media is too big
VIEW IN TELEGRAM
Claude Code получил Artifacts 🏋️‍♂️ - живые страницы из сессии агента.

Теперь агент может собрать из текущей работы интерактивную страницу: PR, дашборд, чеклист релиза, карту сервиса или заметку для ревью. Страница строится из контекста сессии: код, плагины, скиллы и подключенные инструменты. Если агент продолжает работу, страница обновляется по той же ссылке.

Также перевел две хорошие статьи:

📎 Две дорожки для кодинг-агентов: спецификация и реализация - про процесс "спецификация - реализация", где важнее правильно распределить внимание человека и агента.

📎 GTM-команда на Claude Code, которой управляет один человек - про go-to-market команду из нескольких агентов: prospector, researcher, sequencer, recoverer, reporter, общая память и утренний отчет.

Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Очень много инфы появляется про лупы. Это топ 4 за последние дни:

📎Самоулучшающийся Kimi-сворм: 300 агентов, проверка Opus и цикл без ручного аудита

Для тех, кто экспериментирует с multi-agent research, Kimi, дешевыми массовыми прогонами и отдельной verifier-моделью. Внутри: как писать спецификацию для сворма, читать план декомпозиции до запуска, получать файлы вместо ответа в чате, прогонять результат через Opus-проверку и превращать ошибки в постоянные правила для следующих запусков.

📎Loop Engineer: как строить агентные циклы, которые работают без ручного промптинга

Для фаундеров, growth-команд и разработчиков, которые хотят запускать агентные процессы вокруг бизнеса: support, SEO, product growth, ads. Главная инфа - как устроить общий слой артефактов, контрактов и логов, чтобы разные циклы читали выводы друг друга и накапливали рабочую память компании.

📎От промптов к loop engineering: как проектировать циклы для кодинг-агентов

Для тех, кто уже пользуется Claude Code, Codex или другими кодинг-агентами и хочет перейти от ручных запросов к повторяемым циклам. Внутри: 6 частей хорошего loop - триггер, изоляция, записанный контекст, доступ к инструментам, независимая проверка и состояние на диске. Плюс примеры PR-babysitter, /goal, лимиты, стоимость и случаи, когда loop лучше не запускать.

📎Архитектура агентных циклов: loop, skill и устойчивая оркестрация

Для тех, кто думает о production-агентах: фоновые процессы, ретраи, очереди, субагенты, наблюдаемость и восстановление после падений. Аагентный loop должен жить поверх устойчивой оркестрации: каждый шаг сохраняется, ошибки повторяются с нужного места, события не теряются, а dev утром видит все запуски, inputs, outputs и ретраи.

Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥1
Semble (5.3к ) - быстрый поиск по коду для AI-агентов.

Агент спрашивает: Как в проекте устроена аутентификация? - и получает нужные фрагменты кода без долгого чтения всего репозитория.

Что умеет:
🔵 работает локально на CPU, без API-ключей и внешних сервисов;
🔵 подключается как MCP server, CLI или отдельный подагент;
🔵 подходит для Claude Code, Codex, Cursor, OpenCode и VS Code;
🔵 по бенчмаркам авторов экономит до 98% токенов против grep + read.

Как установить - тут

Product Manager Skills (5.2к ) - библиотека продуктовых скиллов для Claude Code, Cowork, Codex и других агентов.

Внутри 50+ скиллов для исследование проблемы, PRD, roadmap, приоритизации, пользовательских сценариев, стратегии, роста и продуктовых метрик.

Самые полезные:
🔵 discovery-process - помогает пройти путь от гипотезы до плана проверки
🔵 prioritization-advisor - подбирает способ приоритизации под вашу ситуацию
🔵 prd-development - собирает PRD, который можно отдавать команде
🔵 roadmap-planning - превращает цели и инициативы в понятный план релизов

Готовые сценарии:
🔵 /discover - разобраться в проблеме, собрать вопросы и выбрать проверки
🔵 /write-prd - превратить идею в PRD и первые пользовательские сценарии
🔵 /strategy - собрать позиционирование, проблему, варианты решений и roadmap

Чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Bayer показала, как выглядит агентный RAG в проде.

PRINCE помогает исследователям работать с доклиническими данными: уточняет запрос, ищет по PDF-отчетам через RAG, ходит в структурированные данные через Text-to-SQL, проверяет полноту фактов и собирает ответ с цитатами.

📎 Как выглядит надежная агентская ИИ-система

ЧАТ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Graphify (70к ) - карта проекта для AI-агентов

Агентам постоянно приходится заново читать файлы, искать по репозиторию и тратить контекст на куски кода. Graphify решает это через граф знаний: один раз строит карту проекта, а потом агент спрашивает ее вместо бесконечного grep и чтения файлов.

После запуска /graphify . появляются три артефакта:
- graph.html интерактивная карта в браузере
- GRAPH_REPORT.md понятный отчет с главными узлами, связями и вопросами
- graph.json граф, который агент может спрашивать через CLI или MCP

Что интересно внутри:
🔵 код парсится локально через tree-sitter: классы, функции, импорты, вызовы, SQL-схемы и связи
🔵 docs, PDF, изображения, видео и Google Workspace можно добавлять в тот же граф
🔵 есть MCP-сервер с инструментами query_graph, get_node, shortest_path, list_prs, get_pr_impact
🔵 поддерживаются Claude Code, Codex, OpenCode, Cursor, Kilo Code, Hermes, OpenClaw, Gemini CLI, Devin CLI и другие агенты
🔵 можно поставить hooks, чтобы после коммитов граф обновлялся сам

Установка:
uv tool install graphifyy
graphify install
/graphify .

Для команд это особенно кдобно: graphify-out/ можно коммитить в репозиторий, и новые агентные сессии сразу получают готовую память проекта. Агент видит, где авторизация, где база, какие модули связаны, какие PR задевают те же части системы и где может быть конфликт.

Бонусом статья - 📎 Второй мозг в Claude на Obsidian: практический гайд

ЧАТ
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2
Продолжаем изучать тему лупов ✍️

🔵AI loops: что это такое и где они реально работают

База: что такое loop, зачем нужны проверка, состояние и лимиты, где это помогает, а где просто сжигает токены.

Подойдет тем, кто пока использует ИИ через одиночные запросы и хочет понять следующий уровень.

🔵Loop engineering: как заставить агента кодить ночью и не сжечь бюджет

Практика для разработки: STATUS.md, skills, worktrees, MCP, субагенты, бюджетные стопы и утренний отчет вместо стены логов.

Подойдет разработчикам и тимлидам, которые хотят запускать кодинг агентов в репозитории безопаснее.

🔵Один loop, 259 PR в месяц: практическая схема loop engineering

Схема полноценного loop: 6 частей, первые задачи, ограничители, типичные сбои и дешевые альтернативы.

Начинайте с маленького повторяемого процесса, где есть автоматическая проверка, лимит шагов и понятный результат.

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🔱Hermes Agent раскрывается постепенно. Сначала это просто запросы в Telegram или терминале: найти, сравнить, поправить файл, запустить команду. Дальше появляется память, SOUL.md, skills, MCP, sub-agents, cron jobs, профили и отдельные рабочие агенты под разные задачи.

📎15 уровней Hermes Agent. Тут хорошо видно, на каком этапе вы сейчас и какой следующий шаг даст больше всего пользы.

Самый интересный момент начинается после cron jobs. Если агент каждый день приносит результат, он должен учиться на обратной связи.

Для этого есть 📎Hermes Sensei Loop: агент собирает замечания, проверяет новый prompt на holdout-наборе и продвигает изменения только если качество реально выросло.

Сначала доведите Hermes до уровня, где он стабильно делает работу без ручного вмешательства. Потом добавляйте лупы, чтобы они улучшали workflow, а не просто запускал старые задачи по расписанию.

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥3
Если пользуетесь Codex CLI - проверьте ~/.codex

В Codex нашли неприятный баг с локальными логами: CLI слишком подробно писал TRACE/WebSocket/telemetry события в SQLite:
~/.codex/logs_2.sqlite
~/.codex/logs_2.sqlite-wal
~/.codex/logs_2.sqlite-shm


В issue #28224 один сетап экстраполировали до ~640 TB записей в год на SSD. Размер файла при этом может не выглядеть страшно: WAL крутится и перезаписывается, а износ диска всё равно происходит.

Если файлы уже разрослись, закройте Codex и удалите их:
rm -f ~/.codex/logs_2.sqlite*


Фикс уже вошёл в обновление 0.142.0

чат
😱2
Looper (188 ⭐️) - скилл, который помогает спроектировать loop до запуска.

Если плохо описать /goal или /loop, агент быстро сожжет токены и будет уверенно крутиться вокруг плохой задачи. Looper добавляет шаг - сначала собирает нормальный цикл, потом отдает его Claude Code или другому агенту.

Вы запускаете /looper, а он интервьюирует вас по ключевым частям:
🔵 цель и контекст
🔵 что считается готовым результатом
🔵 проверки: команда, модель-судья или человек
🔵 отдельный reviewer/судья, например Claude проверяет работу Codex
🔵 лимиты по итерациям, времени, токенам и “нет прогресса”
🔵 файлы состояния: state.json, run-log.md, loop.yaml, RUN_IN_SESSION.md

Loop становится видимым артефактом. Его можно прочитать, поправить, переиспользовать, закоммитить и только потом запускать.

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла новая японская модель Sakana Fugu (arxiv), навела шуму знатно, в X - 25 млн просмотров

Самая интересная часть - оркестрация 🔄

Снаружи это один API: вызываешь fugu или fugu-ultra, как обычную модель. Внутри Fugu решает, кого из агентного пула подключить, кому отдать подзадачу, где нужна проверка, а где достаточно одного сильного worker-а.

Полный пул моделей Sakana не раскрывает. В отчете фигурируют GPT-5.5, Claude Opus 4.8 и Gemini 3.1 Pro, но точные версии, правила маршрутизации и внутренние промпты закрыты.

У обычного Fugu логика ближе к умному роутингу: выбрать подходящую модель под шаг задачи.
У Fugu Ultra - полноценный workflow: несколько агентов, роли, промежуточные ответы, проверка, синтез.

Типичный паттерн из отчета: GPT строит решение, Opus приходит на этап дебага и находит уязвимости, после чего результат дорабатывается. В других задачах Fugu может устраивать дебаты, вызывать специалиста по теме или даже рекурсивно подключать Fugu как еще одного участника команды.

Установщик для Codex:
curl -fsSL https://sakana.ai/fugu/install | bash
потом:
codex-fugu

Цены на api:
fugu - вы платите только по стандартной ставке для конкретной базовой модели.
fugu-ultra - 5$ Input, 30$ Output, 0.5$ Cache.
Если контекст больше 272К, то 10$ Input, 45$ Output, 1$ Cache.

И есть подписка 20/100/200$. До конца июля получаете второй месяц бесплатно.

Теперь можно иметь свою фронтир модель, не имея модели 💃

чат
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1