▶️Codex :: SDK
Не Claude Agents / Code SDK единым! У кодекса тоже будет SDK. Уже готовят.
Можно почитать readme тут:
https://github.com/openai/codex/pull/4513/files#diff-9be9f99d130daf9a9aea3153e83306403823122bffa83285f1545b5048f04dda
хорошие новости, будем встраивать)
#post
@deksden_notes
Не Claude Agents / Code SDK единым! У кодекса тоже будет SDK. Уже готовят.
Можно почитать readme тут:
https://github.com/openai/codex/pull/4513/files#diff-9be9f99d130daf9a9aea3153e83306403823122bffa83285f1545b5048f04dda
хорошие новости, будем встраивать)
#post
@deksden_notes
GitHub
Add initial set of doc comments to the SDK by pakrym-oai · Pull Request #4513 · openai/codex
Also perform minor code cleanup.
🔥5👍4
♊️Gemini Cli :: Agents
Команда Gemini Cli работает над созданием своей системы агентов:
https://github.com/google-gemini/gemini-cli/pull/9778
Живьём пока вроде бы такого не видно, но "под капотом" работа идет. Даже модель с контекстом 1m токенов "сломалась" на эту тему.
❓ Интересно - сколько будет держаться Кодекс?) Gemini делает, Qwen сделал ...
#post
@deksden_notes
Команда Gemini Cli работает над созданием своей системы агентов:
https://github.com/google-gemini/gemini-cli/pull/9778
Живьём пока вроде бы такого не видно, но "под капотом" работа идет. Даже модель с контекстом 1m токенов "сломалась" на эту тему.
❓ Интересно - сколько будет держаться Кодекс?) Gemini делает, Qwen сделал ...
#post
@deksden_notes
GitHub
refactor(agents): Introduce Declarative Agent Framework by abhipatel12 · Pull Request #9778 · google-gemini/gemini-cli
TLDR
This pull request refactors our subagent infrastructure from SubAgentScope into a declarative, definition-based framework. The core of this change is the introduction of an AgentDefinition int...
This pull request refactors our subagent infrastructure from SubAgentScope into a declarative, definition-based framework. The core of this change is the introduction of an AgentDefinition int...
1👍4🔥3
Google Jules :: обновки конца сентября
Не CLI единым - развиваетс все, и довольно бодро. У Жульеса тоже куча обновок:
- общается в комментариях к PR
- файловый @ селектор в чате
- ПАМЯТЬ: агент выделяет какие то заметки про репо и сохраняет их на будущее; довольно просто - но мы только начали;
- ENV - наконец то можно "официальным" способом давать переменные окружения на уровне репозитория, для фонового агента это BIG; управляемая выдача переменных таскам;
Смотрим и читаем про сабж тут:
https://jules.google/docs/changelog/
#post
@deksden_notes
Не CLI единым - развиваетс все, и довольно бодро. У Жульеса тоже куча обновок:
- общается в комментариях к PR
- файловый @ селектор в чате
- ПАМЯТЬ: агент выделяет какие то заметки про репо и сохраняет их на будущее; довольно просто - но мы только начали;
- ENV - наконец то можно "официальным" способом давать переменные окружения на уровне репозитория, для фонового агента это BIG; управляемая выдача переменных таскам;
Смотрим и читаем про сабж тут:
https://jules.google/docs/changelog/
#post
@deksden_notes
👍6🔥2
Google Jules :: теперь CLI!
В полку консольных агентов прибыло - откуда не ждали! )) Жульес теперь в терминале - omfg:
https://developers.googleblog.com/en/meet-jules-tools-a-command-line-companion-for-googles-async-coding-agent/
https://x.com/julesagent/status/1973812188977508755
вот о каких больших новостях говорили в твиттере! вот так вариант апи - о котором просили )))
Это будем посмотреть!
В полку консольных агентов прибыло - откуда не ждали! )) Жульес теперь в терминале - omfg:
https://developers.googleblog.com/en/meet-jules-tools-a-command-line-companion-for-googles-async-coding-agent/
https://x.com/julesagent/status/1973812188977508755
вот о каких больших новостях говорили в твиттере! вот так вариант апи - о котором просили )))
Это будем посмотреть!
❤5👍3🔥1
Codex Web :: лимиты с 2025-10-20
➡️ К сведению: халява то не вечная ))
Beginning October 20, Codex Cloud tasks will count toward your Codex usage.
https://developers.openai.com/codex/changelog
Codex Web == Codex Cloud видимо, так его клозеды прозвали
➡️ К сведению: халява то не вечная ))
Beginning October 20, Codex Cloud tasks will count toward your Codex usage.
https://developers.openai.com/codex/changelog
Codex Web == Codex Cloud видимо, так его клозеды прозвали
Openai
Codex changelog
Latest updates to Codex, OpenAI’s coding agent
Codex SDK
Клозеды выпустили Codex SDK, которым можно рулить кодексом программно. Пакет пока только TS, версии для питона нету. Сделан пакет аналогично Claude Agents SDK (ex Claude Code SDK): обёртка над cli, которая запускает codex cli и парсит вывод.
Видимо, если вы залогинены в codex через аккаунт, то подписку можно использовать и в SDK - надо будет проверить.
Стримить работу агента умеет.
Из необычного: поддерживает structured output, почти как вызов модели, только тут - вызов агента. Детали в readme.
Дока скромная, больше чем readme и пара строк на оффсайте ничего особо не расписано.
Репо тут: https://github.com/openai/codex/tree/main/sdk/typescript
Дока: https://developers.openai.com/codex/sdk (не зачитайтесь!)
Upd: github action они выпустили тоже, но оно требует API_KEY! Это ж изрядно дорого получится по апи, поэтому ждём-с когда прикрутят подписку к action.
Клозеды выпустили Codex SDK, которым можно рулить кодексом программно. Пакет пока только TS, версии для питона нету. Сделан пакет аналогично Claude Agents SDK (ex Claude Code SDK): обёртка над cli, которая запускает codex cli и парсит вывод.
Видимо, если вы залогинены в codex через аккаунт, то подписку можно использовать и в SDK - надо будет проверить.
Стримить работу агента умеет.
Из необычного: поддерживает structured output, почти как вызов модели, только тут - вызов агента. Детали в readme.
Дока скромная, больше чем readme и пара строк на оффсайте ничего особо не расписано.
Репо тут: https://github.com/openai/codex/tree/main/sdk/typescript
Дока: https://developers.openai.com/codex/sdk (не зачитайтесь!)
Upd: github action они выпустили тоже, но оно требует API_KEY! Это ж изрядно дорого получится по апи, поэтому ждём-с когда прикрутят подписку к action.
GitHub
codex/sdk/typescript at main · openai/codex
Lightweight coding agent that runs in your terminal - openai/codex
👍4🔥2
Google :: Подписки AI Pro / Ultra получают Gemini Cli / Code Assist
👉 Не все знают, оказывается. Напишу.
Гугл не так давно уравнял доступ rGemini Cli для подписчиков Code Assis Standard / Enterprise с подписчиками Google Ai Pro / Ultra. Теперь они одинаковые в лимитах для своего уровня, то есть Pro как Standard, Ultra как Enterprise.
🟢 В итоге у подписчиков Ai Pro получается 120 RPM, и 1500 RPD к Gemini 2.5 pro в Gemini Cli, что довольно много. Обратите внимание - это в СУТКИ, не в месяц (привет курсорам/варпам).
🟢 Повышенные лимиты на Jules у подписчиков Ai Pro довольно давно.
Вьетнамские подписки с платимаркета за 1000р на полгода на ai pro стали ещё выгоднее ))
🔗 https://blog.google/technology/developers/gemini-cli-code-assist-higher-limits/
#post
@deksden_notes
👉 Не все знают, оказывается. Напишу.
Гугл не так давно уравнял доступ rGemini Cli для подписчиков Code Assis Standard / Enterprise с подписчиками Google Ai Pro / Ultra. Теперь они одинаковые в лимитах для своего уровня, то есть Pro как Standard, Ultra как Enterprise.
🟢 В итоге у подписчиков Ai Pro получается 120 RPM, и 1500 RPD к Gemini 2.5 pro в Gemini Cli, что довольно много. Обратите внимание - это в СУТКИ, не в месяц (привет курсорам/варпам).
🟢 Повышенные лимиты на Jules у подписчиков Ai Pro довольно давно.
Вьетнамские подписки с платимаркета за 1000р на полгода на ai pro стали ещё выгоднее ))
🔗 https://blog.google/technology/developers/gemini-cli-code-assist-higher-limits/
#post
@deksden_notes
Google
Google AI Pro and Ultra subscribers now get Gemini CLI and Gemini Code Assist with higher limits.
Google AI Pro and Ultra subscribers now get higher limits to Gemini CLI and Gemini Code Assist IDE extensions.
1👍4⚡2🔥2
Codex :: compact
⚠️ Свежий релиз кодекса сломал компакт. Модель доходит до границы контекстного окна, выдаёт новое красненькое сообщение об исчерпании конекста, но команда /compact не срабатывает.
https://github.com/openai/codex/issues/4813
➡️ Если Вы не пользуетесь file-based protocols, в которые модель кидает прогресс и контекст по мере выполнения работы, то это загубит сессию.
🟢 Меня такое не сильно парит, у меня "все ходы записаны!". Я в таком случае начинаю новый чат, выставляю yolo, делаю прайминговый промпт на меморибанк, и гружу файл протокола. после этого модель начинает с последней задачи из протокола.
❓ Может кто то знает как спасти сессию в такой ситуации? Но мне пока нравится подход с планами в файле протокола.
#post
@deksden_notes
⚠️ Свежий релиз кодекса сломал компакт. Модель доходит до границы контекстного окна, выдаёт новое красненькое сообщение об исчерпании конекста, но команда /compact не срабатывает.
https://github.com/openai/codex/issues/4813
➡️ Если Вы не пользуетесь file-based protocols, в которые модель кидает прогресс и контекст по мере выполнения работы, то это загубит сессию.
🟢 Меня такое не сильно парит, у меня "все ходы записаны!". Я в таком случае начинаю новый чат, выставляю yolo, делаю прайминговый промпт на меморибанк, и гружу файл протокола. после этого модель начинает с последней задачи из протокола.
❓ Может кто то знает как спасти сессию в такой ситуации? Но мне пока нравится подход с планами в файле протокола.
#post
@deksden_notes
GitHub
openai/codex
Lightweight coding agent that runs in your terminal - openai/codex
🔥3👍1
🧩 Claude Code Plugins
🔥 Большой релиз у антропиков: 2.0.12. Да, номер невзрачный, но за ним - PLUGINS SYSTEM.
Это возможность добавлять упакованные в плагины: slash команды, субагентов, MCP сервера, хуки.
Добавляем маркетплейсы в систему - это просто git репо со специальным файлом. То есть чьи то коллекции добра для СС!
Большое дело, удобно! Надеюсь, станет неким стандартом. антропики круто двигают продукт, молодцы.
Щас бы модели не тупели, и лимиты бы поразумнее - и совсем было бы здорово!
🔗 Почитать блог: https://www.anthropic.com/news/claude-code-plugins
Почитать доку как делать плагины: https://docs.claude.com/en/docs/claude-code/plugins
Пример: https://www.aitmpl.com/plugins
▶️ Налетаем ))
(...) Upd:
Я, кстати, не понимаю - почему для создания таких штук антропики не подучили Claude Code грузить инструкцию и в чате с агентом создавать такие штуки? Плагин бы сделали для разработки плагинов - круто же/
Инициализировать там все, верифицировать и так далее. Можно же было подсуетиться, и показали бы другим как работать с технологией. Заодно все нюансы как правильно сделать агент бы учитывал "из коробки"
#post
@deksden_notes
🔥 Большой релиз у антропиков: 2.0.12. Да, номер невзрачный, но за ним - PLUGINS SYSTEM.
Это возможность добавлять упакованные в плагины: slash команды, субагентов, MCP сервера, хуки.
Добавляем маркетплейсы в систему - это просто git репо со специальным файлом. То есть чьи то коллекции добра для СС!
Большое дело, удобно! Надеюсь, станет неким стандартом. антропики круто двигают продукт, молодцы.
Щас бы модели не тупели, и лимиты бы поразумнее - и совсем было бы здорово!
🔗 Почитать блог: https://www.anthropic.com/news/claude-code-plugins
Почитать доку как делать плагины: https://docs.claude.com/en/docs/claude-code/plugins
Пример: https://www.aitmpl.com/plugins
▶️ Налетаем ))
(...) Upd:
Я, кстати, не понимаю - почему для создания таких штук антропики не подучили Claude Code грузить инструкцию и в чате с агентом создавать такие штуки? Плагин бы сделали для разработки плагинов - круто же/
Инициализировать там все, верифицировать и так далее. Можно же было подсуетиться, и показали бы другим как работать с технологией. Заодно все нюансы как правильно сделать агент бы учитывал "из коробки"
#post
@deksden_notes
Claude
Customize Claude Code with plugins | Claude
Claude Code now supports plugins: custom collections of slash commands, agents, MCP servers, and hooks that install with a single command. Share your Claude Code setup with plugins Slash commands, agents, MCP servers, and hooks are all extension points you…
🔥8❤2👍1🥰1
Jules API :: не через cli, а "настоящий"
Очередные обновки жульеса: теперь у нас есть апи! Не просто cli, а полноценное api:
https://developers.google.com/jules/api
Похоже, Гугл настаивает, чтобы я думал как его интегрировать в работу.
#post
@deksden_notes
Очередные обновки жульеса: теперь у нас есть апи! Не просто cli, а полноценное api:
https://developers.google.com/jules/api
Похоже, Гугл настаивает, чтобы я думал как его интегрировать в работу.
#post
@deksden_notes
👍6❤4
Knip :: полезен для AI-dev
Вы же пользуетесь статическим анализом? Для TypeScript есть весьма стандартный инструмент, который подсвечивает неиспользуемый в проекте код - knip.
https://knip.dev/
https://github.com/webpro-nl/knip
Такого рода инструменты очень полезны именно при ai разработке, когда агенты могут не убирать какой то код для "сохранения совместимости" или ещё по каким то своим туманным соображениям гуманизма, и постепенно в проекте могут копиться некоторые артефакты. Артефакты вредны, засоряют контекст, путают тех же агентов. В крайних случаях вы можете обнаружить себя в многочасовой отладке кода, который устарел и не используется вообще (поэтому и падают тесты с ним - он не актуален).
Штуками такого рода надо пользоваться аккуратно: ложные срабатывания у неё вполне вероятны и ожидаемы: инструмент без ai, анализирует проект механистически, зато полностью.
🟢 Что хорошо работает - это ИИ агент в связке с knip. Инструмент удобно запускать "из-под агента": тогда вы можете просить агента проанализировать вывод knip и дать заключение об адекватности отчёта. Агент с умной моделью типа кодекса вполне в состоянии понять, что публичное api сервисов - это не "лишний экспорт" и может добавить полезные исключения. И в целом проверить выдачу knip на адекватность. Например, подтвердить что часть файлов действительно устарела и не используется. Заодно по итогам он вам эти файлы и уберёт!
‼️ Ещё раз: commit перед сеансом работы с knip обязателен. Пропишите это правило для ИИ агента тоже: чистый git. Эта штука советует УДАЛЕНИЕ кода - операция по определению деструктивная, пользоваться надо аккуратно и желательно понимать что ты делаешь. Лучший рецепт: сохраняйте копии ДО процедуры. Обязательно все проверяйте ПОСЛЕ.
👉 Из полезного: позволяет вычистить накопленные артефакты после многих итераций разработки. Не знаю насколько для человеческой разработки актуально (от команды, наверное, зависит) - но как без подобных инструментов в ai swe я даже не знаю!
В общем, полезная штука, кмк.
А вы чем ещё пользуетесь?
#post
@deksden_notes
Вы же пользуетесь статическим анализом? Для TypeScript есть весьма стандартный инструмент, который подсвечивает неиспользуемый в проекте код - knip.
https://knip.dev/
https://github.com/webpro-nl/knip
Такого рода инструменты очень полезны именно при ai разработке, когда агенты могут не убирать какой то код для "сохранения совместимости" или ещё по каким то своим туманным соображениям гуманизма, и постепенно в проекте могут копиться некоторые артефакты. Артефакты вредны, засоряют контекст, путают тех же агентов. В крайних случаях вы можете обнаружить себя в многочасовой отладке кода, который устарел и не используется вообще (поэтому и падают тесты с ним - он не актуален).
Штуками такого рода надо пользоваться аккуратно: ложные срабатывания у неё вполне вероятны и ожидаемы: инструмент без ai, анализирует проект механистически, зато полностью.
🟢 Что хорошо работает - это ИИ агент в связке с knip. Инструмент удобно запускать "из-под агента": тогда вы можете просить агента проанализировать вывод knip и дать заключение об адекватности отчёта. Агент с умной моделью типа кодекса вполне в состоянии понять, что публичное api сервисов - это не "лишний экспорт" и может добавить полезные исключения. И в целом проверить выдачу knip на адекватность. Например, подтвердить что часть файлов действительно устарела и не используется. Заодно по итогам он вам эти файлы и уберёт!
‼️ Ещё раз: commit перед сеансом работы с knip обязателен. Пропишите это правило для ИИ агента тоже: чистый git. Эта штука советует УДАЛЕНИЕ кода - операция по определению деструктивная, пользоваться надо аккуратно и желательно понимать что ты делаешь. Лучший рецепт: сохраняйте копии ДО процедуры. Обязательно все проверяйте ПОСЛЕ.
👉 Из полезного: позволяет вычистить накопленные артефакты после многих итераций разработки. Не знаю насколько для человеческой разработки актуально (от команды, наверное, зависит) - но как без подобных инструментов в ai swe я даже не знаю!
В общем, полезная штука, кмк.
А вы чем ещё пользуетесь?
#post
@deksden_notes
Knip
Declutter your JavaScript & TypeScript projects
Project linter to find unused dependencies, exports and files
👍8🔥5❤2
ReasoningBank от Гугла
Я не мог пройти мимо упоминания "... -банк" Гуглом! ))
🔗 https://t.me/data_secrets/8016
Ну и я бы не сказал, что такого нкто не делал. В том же qoder есть извлечение lessons learned из чатов с ИИ.
Наверное, фишка в системности этого подхода! Надо подумать над этим.
#post
@deksden_notes
Я не мог пройти мимо упоминания "... -банк" Гуглом! ))
🔗 https://t.me/data_secrets/8016
Ну и я бы не сказал, что такого нкто не делал. В том же qoder есть извлечение lessons learned из чатов с ИИ.
Наверное, фишка в системности этого подхода! Надо подумать над этим.
#post
@deksden_notes
Telegram
Data Secrets
Google предложили систему памяти, благодаря которой ИИ может учиться на своих ошибках в реальном времени
Идея, на самом деле, простая, но никто не имплементировал такое до этого.
Смотрите, вот что будет делать человек, если совершит ошибку? Правильно,…
Идея, на самом деле, простая, но никто не имплементировал такое до этого.
Смотрите, вот что будет делать человек, если совершит ошибку? Правильно,…
🔥5👍2😁1
Схема "критик"
▶️ Пользуетесь ли вы схемой "критик"? Крайне полезная и результативная схема. Суть простая: сделанная работа ревьюится агентом. Работа может быть как планом, так и выполненной работой (рефакторингом, реализацией новой фичи).
Вроде бы элементарно! Но это реально рабоатет и приносит свои результаты. Особенно эффективно если критик - это отдельная задача с отдельным контекстом: так минимизируется bias к сделанной работе. Можно, конечно (и нужно) добавлять шаг "верификация" к сделанной работе, но в кодексе он будет исполняться в том же контексте, что снижает качество.
🟢 Попробуйте!
У меня система регулярно что то или доучитывает в плане, или допланирует. Промпты - стандартные, типовые. Планы сохраняем в md файлы, ими и обмениваемся между агентами.
Интересна вариация схемы: когда один агент производит ревью архитектуры и "косяков" в системе, находит недостатки. Потом другим агентом планируем и устраняем недостатки - а потом "автор" оригинального ревью системы смотрит и даёт заключение про качество исправления выявленных недостатков! Весьма много доработок случается.
🔥 общем, всячески рекомендую. Современные модели дают наибольшее качество в мультиагентных системах, где рефлексия и мультисемплинг пока дают реальный рост результатов. Видимо, до agi так и будм на этих паттернах выезжать
#post
@deksden_notes
▶️ Пользуетесь ли вы схемой "критик"? Крайне полезная и результативная схема. Суть простая: сделанная работа ревьюится агентом. Работа может быть как планом, так и выполненной работой (рефакторингом, реализацией новой фичи).
Вроде бы элементарно! Но это реально рабоатет и приносит свои результаты. Особенно эффективно если критик - это отдельная задача с отдельным контекстом: так минимизируется bias к сделанной работе. Можно, конечно (и нужно) добавлять шаг "верификация" к сделанной работе, но в кодексе он будет исполняться в том же контексте, что снижает качество.
🟢 Попробуйте!
У меня система регулярно что то или доучитывает в плане, или допланирует. Промпты - стандартные, типовые. Планы сохраняем в md файлы, ими и обмениваемся между агентами.
Интересна вариация схемы: когда один агент производит ревью архитектуры и "косяков" в системе, находит недостатки. Потом другим агентом планируем и устраняем недостатки - а потом "автор" оригинального ревью системы смотрит и даёт заключение про качество исправления выявленных недостатков! Весьма много доработок случается.
🔥 общем, всячески рекомендую. Современные модели дают наибольшее качество в мультиагентных системах, где рефлексия и мультисемплинг пока дают реальный рост результатов. Видимо, до agi так и будм на этих паттернах выезжать
#post
@deksden_notes
1👍9🔥3💯3
Мультисемплинг
▶️ А мультисемплингом пользуетесь? Полезная штука. Этот англицизм (куда же мы без них в отрасли то!) - он про множественные генерации при одинаковом контексте/задаче. Мы генерируем несколько вариантов.
🟢 Рассказываю свой эксперимент: пока у меня есть время - прогоняются тестовые воркфлоу под наблюдением агентов по сценариям (тестирование "под надзором" - agent suprevised testing - что весьма долго, по 20 минут на прогон тестового воркфлоу. В общем, решил причесать архитектуру системы в поисках косячков. Развлекаюсь так периодически! В библиотеке промптов обсидиана лежит заготовленный промпт для анализа, и как раз тут Гемини cli с подпиской тусит во вкладке - неприкаянный!
В общем, решил прогнать "архитектурка-чек". Запраймил гемини индексом меморибанка, и кинул промпт анализа. Потом подумалось что самое время провести эксперимент. Сделал ещё 2 вкладки с гемини, запустил ИДЕНТИЧНЫЕ промпты прайминга и потом - анализа.
➡️ Результаты, конечно, убивают ))
Первый агент написал как все прекрасно, в стиле гемини - "самая надёжная архитектура и тп". Пучок лещей для поглаживания ими ЧСВ мне не нужен, пропускаем.
Второй агент упёрся в основном в типобезопасность и докопался к проверкам типов в обработчиках. Ну ок - имеет место быть, можно обсудить.
Третий агент прошёлся по совершенно другим аспектам: взаимодействию с redis и "болтливостью с БД (когда несколько вызовов делаем), сложности некоторых обработчиков.
🟢 Итог: годный отчёт - компиляция трёх (вернее двух отчётов - первый бестолковый). Поэтому я очень хорошо понимаю, как топовыми режимами работы чата являются системы типа gpt PRO , которые "под капотом", по слухам, делают @5 мультисемплинг!
🤔 Что убивает то? Конечно то, что при ИДЕНТИЧНОМ контексте и запросе, просто за счёт температуры, можно абсолютно случайным образом получить либо хороший годный ответ, либо бестолковый.
Но получить ПОЛНОЦЕННЫЙ ответ за один ответ, видимо, - никак. При современных моделях, полноценный ответ - это или разбивка промпта на пучок задач для "роя" агентов, либо мультисемплинг генерация с оценкой полученного и синтезом итогового объединённого ответа.
Агенты могут работать СИЛЬНО лучше, просто это очень хлопотно их правильно на работу сорганизовать.
Так и живём ...
#post
@deksden_notes
▶️ А мультисемплингом пользуетесь? Полезная штука. Этот англицизм (куда же мы без них в отрасли то!) - он про множественные генерации при одинаковом контексте/задаче. Мы генерируем несколько вариантов.
🟢 Рассказываю свой эксперимент: пока у меня есть время - прогоняются тестовые воркфлоу под наблюдением агентов по сценариям (тестирование "под надзором" - agent suprevised testing - что весьма долго, по 20 минут на прогон тестового воркфлоу. В общем, решил причесать архитектуру системы в поисках косячков. Развлекаюсь так периодически! В библиотеке промптов обсидиана лежит заготовленный промпт для анализа, и как раз тут Гемини cli с подпиской тусит во вкладке - неприкаянный!
В общем, решил прогнать "архитектурка-чек". Запраймил гемини индексом меморибанка, и кинул промпт анализа. Потом подумалось что самое время провести эксперимент. Сделал ещё 2 вкладки с гемини, запустил ИДЕНТИЧНЫЕ промпты прайминга и потом - анализа.
➡️ Результаты, конечно, убивают ))
Первый агент написал как все прекрасно, в стиле гемини - "самая надёжная архитектура и тп". Пучок лещей для поглаживания ими ЧСВ мне не нужен, пропускаем.
Второй агент упёрся в основном в типобезопасность и докопался к проверкам типов в обработчиках. Ну ок - имеет место быть, можно обсудить.
Третий агент прошёлся по совершенно другим аспектам: взаимодействию с redis и "болтливостью с БД (когда несколько вызовов делаем), сложности некоторых обработчиков.
🟢 Итог: годный отчёт - компиляция трёх (вернее двух отчётов - первый бестолковый). Поэтому я очень хорошо понимаю, как топовыми режимами работы чата являются системы типа gpt PRO , которые "под капотом", по слухам, делают @5 мультисемплинг!
🤔 Что убивает то? Конечно то, что при ИДЕНТИЧНОМ контексте и запросе, просто за счёт температуры, можно абсолютно случайным образом получить либо хороший годный ответ, либо бестолковый.
Но получить ПОЛНОЦЕННЫЙ ответ за один ответ, видимо, - никак. При современных моделях, полноценный ответ - это или разбивка промпта на пучок задач для "роя" агентов, либо мультисемплинг генерация с оценкой полученного и синтезом итогового объединённого ответа.
Агенты могут работать СИЛЬНО лучше, просто это очень хлопотно их правильно на работу сорганизовать.
Так и живём ...
#post
@deksden_notes
🔥13👍5
Codex workflow для рефакторинга
Сейчас я делаю кодексом довольно много работы, в том числе рефакторинги кодовой базы. Отработался некий пайплайн, которым делюсь.
1️⃣ Конечно, сначала мы обсуждаем план. Читаем меморибанк, праймим контекст. После этого обсуждаем некий момент/идею/доработку, обсждение - в свободной форме. В завершение я прошу кодекс проработать интеграцию этой идеи в текущую кодовую базу, снять все неопределённости. Итогом обсуждения будет проработанная сформулированная идея.
2️⃣ Из обсуждавшегося плана мы делаем штуку, которую я назвал "протокол" - это схема реализации рефакторинга/фичи/и тд.
Структура такая:
- протокол разбит на шаги, шаги - на задачи.
- для шага определён чек-лист приёмки, когда мы считаем его успешно реализованным;
- отдельно прописана необходимость обновления меморибанка (кратко - основные принципы + ссылки на индексный файл правил ведения меморибанка)
- требуем работать:
* без оверининиринга/усложнений
* без легаси, фоллбэков, совместимости со старыми версиями - только новый код, все старое мигрируем;
* делаем все максимально простым способом, но с сохранением функциональности;
* определяем контроль качества: typecheck, lint, build ключевых пакетов, unit test
* определяем политику тестирования: общие хелперы, прописывать - что тестируем, для каких целей, что проверяем, зачем;
* прописываем что после каждого шага сохраняем контекст и прогресс в файл протокола
- технические решения оформляем как мини-ADR
- прописываем схему сохранения прогресса и контекста
- прописываем контекст первого шага
Итог: получаем в папке .protocols/ очередной файл вида "0XXX-some-planned-refactor.md".
3️⃣ Дальше зависит от обстановки: если рефакторинг маленький, и контекста осталось больше 50%, я стартую в этом же экземпляре кодекса командой /protocol-go "работай по плану из протокола, фиксируй прогресс и контекст в файле протокола"
Если рефакторинг большой, то я начинаю новую сессию кодекса (на самом деле у меня есть уже готовые 2-3 сессии с праймингом меморибанком, то у меня 1-2 минуты занимает, поэтому они "в запасе"). Для прайминга задачей у меня есть промпт:
- прочитай протокол из .protocols/ под номером 0-XXX.
- восстановки контекст, подготовься к обсуждению указанных в протоколе задач;
- возвращайся как будешь готов
Как агент закончит подготовку контекста - приступаем обычной командой /protocol-go
4️⃣ Когда кончается контекст - я останавливаю после шага агента (оцениваю - если есть риск исчерпания контекста посередине шага). Стартуем/берем очередной экземпляр кодекса с праймингом меморибанком. Праймим его дополнительно промптом "возобнови задачу" (из пункта 3) чтобы он прочитал контекст из протокола. И - /protocol-go!
Примерно такой пайплайн.
Для СС был примерно такой же с нюансами (там планмод использовал в обсуждении, и явно указывал прописывать todo на базе протокола). Думаю, для любого агента пойдёт.
❓ А вы как тащите большие рефакторинги?
#post
@deksden_notes
Сейчас я делаю кодексом довольно много работы, в том числе рефакторинги кодовой базы. Отработался некий пайплайн, которым делюсь.
1️⃣ Конечно, сначала мы обсуждаем план. Читаем меморибанк, праймим контекст. После этого обсуждаем некий момент/идею/доработку, обсждение - в свободной форме. В завершение я прошу кодекс проработать интеграцию этой идеи в текущую кодовую базу, снять все неопределённости. Итогом обсуждения будет проработанная сформулированная идея.
2️⃣ Из обсуждавшегося плана мы делаем штуку, которую я назвал "протокол" - это схема реализации рефакторинга/фичи/и тд.
Структура такая:
- протокол разбит на шаги, шаги - на задачи.
- для шага определён чек-лист приёмки, когда мы считаем его успешно реализованным;
- отдельно прописана необходимость обновления меморибанка (кратко - основные принципы + ссылки на индексный файл правил ведения меморибанка)
- требуем работать:
* без оверининиринга/усложнений
* без легаси, фоллбэков, совместимости со старыми версиями - только новый код, все старое мигрируем;
* делаем все максимально простым способом, но с сохранением функциональности;
* определяем контроль качества: typecheck, lint, build ключевых пакетов, unit test
* определяем политику тестирования: общие хелперы, прописывать - что тестируем, для каких целей, что проверяем, зачем;
* прописываем что после каждого шага сохраняем контекст и прогресс в файл протокола
- технические решения оформляем как мини-ADR
- прописываем схему сохранения прогресса и контекста
- прописываем контекст первого шага
Итог: получаем в папке .protocols/ очередной файл вида "0XXX-some-planned-refactor.md".
3️⃣ Дальше зависит от обстановки: если рефакторинг маленький, и контекста осталось больше 50%, я стартую в этом же экземпляре кодекса командой /protocol-go "работай по плану из протокола, фиксируй прогресс и контекст в файле протокола"
Если рефакторинг большой, то я начинаю новую сессию кодекса (на самом деле у меня есть уже готовые 2-3 сессии с праймингом меморибанком, то у меня 1-2 минуты занимает, поэтому они "в запасе"). Для прайминга задачей у меня есть промпт:
- прочитай протокол из .protocols/ под номером 0-XXX.
- восстановки контекст, подготовься к обсуждению указанных в протоколе задач;
- возвращайся как будешь готов
Как агент закончит подготовку контекста - приступаем обычной командой /protocol-go
4️⃣ Когда кончается контекст - я останавливаю после шага агента (оцениваю - если есть риск исчерпания контекста посередине шага). Стартуем/берем очередной экземпляр кодекса с праймингом меморибанком. Праймим его дополнительно промптом "возобнови задачу" (из пункта 3) чтобы он прочитал контекст из протокола. И - /protocol-go!
Примерно такой пайплайн.
Для СС был примерно такой же с нюансами (там планмод использовал в обсуждении, и явно указывал прописывать todo на базе протокола). Думаю, для любого агента пойдёт.
❓ А вы как тащите большие рефакторинги?
#post
@deksden_notes
🔥8👍5🥱1
Claude Skills
🎁 Интересная тема вышла у Клода - Claude Skills: это коллекция инструкций, скриптов и ресурсов, котоыре кастоимируют поведение Claude для решения разных задач - в Api, Claude Code и Claude!
https://www.anthropic.com/news/skills
▶️ Вы можете описать некие инстуркции для определённой темы - например, работы с Excel. Подхватывает их клод при выполнении релевантной работы. я так понимаю, механизм похож на выбор суб-агента для той или иной работы (сейчас делается по его description/name).
Интересно что скилы могут включать код. Он будет выполняться через тул Code Execution
https://docs.claude.com/en/docs/agents-and-tools/tool-use/code-execution-tool
🟢 В общем, анонс есть, осталось разобраться что это и с чем его едят.
🔗 Линки:
- Teach Claude your way of working using skills
https://support.claude.com/en/articles/12580051-teach-claude-your-way-of-working-using-skills
- What are Skills?
https://support.claude.com/en/articles/12512176-what-are-skills
- Using Agent Skills with the API
https://docs.claude.com/en/api/skills-guide
- Get started with Agent Skills in the API
https://docs.claude.com/en/docs/agents-and-tools/agent-skills/quickstart
- Skill authoring best practices
https://docs.claude.com/en/docs/agents-and-tools/agent-skills/best-practices
- Claude Code : Agent Skills
https://docs.claude.com/en/docs/claude-code/skills
- Public repository for Skills (Github)
https://github.com/anthropics/skills
🔥 Интересно ,будем посмотреть!
#post
@deksden_notes
🎁 Интересная тема вышла у Клода - Claude Skills: это коллекция инструкций, скриптов и ресурсов, котоыре кастоимируют поведение Claude для решения разных задач - в Api, Claude Code и Claude!
https://www.anthropic.com/news/skills
▶️ Вы можете описать некие инстуркции для определённой темы - например, работы с Excel. Подхватывает их клод при выполнении релевантной работы. я так понимаю, механизм похож на выбор суб-агента для той или иной работы (сейчас делается по его description/name).
Интересно что скилы могут включать код. Он будет выполняться через тул Code Execution
https://docs.claude.com/en/docs/agents-and-tools/tool-use/code-execution-tool
🟢 В общем, анонс есть, осталось разобраться что это и с чем его едят.
🔗 Линки:
- Teach Claude your way of working using skills
https://support.claude.com/en/articles/12580051-teach-claude-your-way-of-working-using-skills
- What are Skills?
https://support.claude.com/en/articles/12512176-what-are-skills
- Using Agent Skills with the API
https://docs.claude.com/en/api/skills-guide
- Get started with Agent Skills in the API
https://docs.claude.com/en/docs/agents-and-tools/agent-skills/quickstart
- Skill authoring best practices
https://docs.claude.com/en/docs/agents-and-tools/agent-skills/best-practices
- Claude Code : Agent Skills
https://docs.claude.com/en/docs/claude-code/skills
- Public repository for Skills (Github)
https://github.com/anthropics/skills
🔥 Интересно ,будем посмотреть!
#post
@deksden_notes
Claude
Introducing Agent Skills | Claude
Claude can now use Skills to improve how it performs specific tasks. Skills are folders that include instructions, scripts, and resources that Claude can load when needed. Claude will only access a skill when it's relevant to the task at hand.
❤6👍3🔥2
Local multiagent flow
Работаете ли вы в нескольких сеансах с агентами локально? Кодекс довольно неспешен, и получается запустить довольно много локальных сеансов.
Как работаю (напомню - я уже писал про пайплайн):
1️⃣ из рабочей папки проекта запускаем несколько табов в iterm (варп глючит с shify-enter, это для меня критично - не могу привыкнуть к Ctrl+J для новой строки). В каждом табе запускаем кодекс, праймим контекстом меморибанка (прочитай главный индексный файл ....). Работает по разному - от 2-3 минут до 7-9. Не понял, влияет ли сильно codex-high или codex-medium стоит на это время, - возможно, пока не разбирался.
👉 Таких табов с "готовым" контекстом держу "про запас" несколько. Именуем свободные табы (cdx-XX, где XX порядковый номер, увеличиваем по мере необходимости).
🟢 Да, вы правильно догадались: ещё есть cc-12, ...
2️⃣ Когда возникает тема к агенту: вопрос "а как у нас рабоатет ?..", всплывает ошибка в воркфлоу "вот тебе протокол запуска ... Разберись!..", или просто фичу формулируем - берём "из запаса" свободный таб, пишем в него вопрос, ведём диалог с агентом.
👉 Когда беру таб из запаса и начинаю обсуждение, то переименовываю его в просто порядковый номер, чтобы визуально отличать от "запасника". Да, иногда текущих табов несколько.
3️⃣ Если из диалога с агентом родилась задача, то приступаем к планирвоанию. Просим проработать её поподробнее, а потом делаем "протокол": это подробный документ для реализации фичи, в котором расписан воркфлоу рабоы:
- как сохранять прогресс и контекст после каждого шага: чтобы надёжно восстановить его если не уложились в один конеткст при работе),
- расписан мой git flow: как создать рабочую ветку под протокол, как сделать PR, как коммитить шаги и прочее.
4️⃣ Дальше кодекс ДОЛГО (максимум - 2 дня) делает этот протокол, чего то там коммитит. Останавливается в среднем после каждого шага (это 15-50 минут) и я оцениваю контекст - если мало, то берём новый таб и там восстанавливаем контекст по протоколу. Если ок - просто продолжаем.
👉 За счёт worktree дерева под каждый протокол - одновременно могут трудится 3-4 агента в разных табах. Думаю вынести все это хозяйство в облако, как придумаю как запустить проекты в облаке для прогона тестов (не все пускается норм, надо придумать чего то).
👉 На этом этапе таб переименовывается номером протокола, типа "0047". Тоже визуально отличается от остальных, разобраться просто.
5️⃣ Когда работа по протоколу закончена - PR переводится в состояние "готово", и можно мержить. Это ещё один стандартный промпт агенту - он все смотрит, проверяет, тестит, собирает, - и зовёт посмотреть на мерж.
Короче, работа как будто в коллективе, но - все сам.
А вы как все организуете для взаимодействия нескольких агентов?
#post
@deksden_notes
Работаете ли вы в нескольких сеансах с агентами локально? Кодекс довольно неспешен, и получается запустить довольно много локальных сеансов.
Как работаю (напомню - я уже писал про пайплайн):
1️⃣ из рабочей папки проекта запускаем несколько табов в iterm (варп глючит с shify-enter, это для меня критично - не могу привыкнуть к Ctrl+J для новой строки). В каждом табе запускаем кодекс, праймим контекстом меморибанка (прочитай главный индексный файл ....). Работает по разному - от 2-3 минут до 7-9. Не понял, влияет ли сильно codex-high или codex-medium стоит на это время, - возможно, пока не разбирался.
👉 Таких табов с "готовым" контекстом держу "про запас" несколько. Именуем свободные табы (cdx-XX, где XX порядковый номер, увеличиваем по мере необходимости).
🟢 Да, вы правильно догадались: ещё есть cc-12, ...
2️⃣ Когда возникает тема к агенту: вопрос "а как у нас рабоатет ?..", всплывает ошибка в воркфлоу "вот тебе протокол запуска ... Разберись!..", или просто фичу формулируем - берём "из запаса" свободный таб, пишем в него вопрос, ведём диалог с агентом.
👉 Когда беру таб из запаса и начинаю обсуждение, то переименовываю его в просто порядковый номер, чтобы визуально отличать от "запасника". Да, иногда текущих табов несколько.
3️⃣ Если из диалога с агентом родилась задача, то приступаем к планирвоанию. Просим проработать её поподробнее, а потом делаем "протокол": это подробный документ для реализации фичи, в котором расписан воркфлоу рабоы:
- как сохранять прогресс и контекст после каждого шага: чтобы надёжно восстановить его если не уложились в один конеткст при работе),
- расписан мой git flow: как создать рабочую ветку под протокол, как сделать PR, как коммитить шаги и прочее.
4️⃣ Дальше кодекс ДОЛГО (максимум - 2 дня) делает этот протокол, чего то там коммитит. Останавливается в среднем после каждого шага (это 15-50 минут) и я оцениваю контекст - если мало, то берём новый таб и там восстанавливаем контекст по протоколу. Если ок - просто продолжаем.
👉 За счёт worktree дерева под каждый протокол - одновременно могут трудится 3-4 агента в разных табах. Думаю вынести все это хозяйство в облако, как придумаю как запустить проекты в облаке для прогона тестов (не все пускается норм, надо придумать чего то).
👉 На этом этапе таб переименовывается номером протокола, типа "0047". Тоже визуально отличается от остальных, разобраться просто.
5️⃣ Когда работа по протоколу закончена - PR переводится в состояние "готово", и можно мержить. Это ещё один стандартный промпт агенту - он все смотрит, проверяет, тестит, собирает, - и зовёт посмотреть на мерж.
Короче, работа как будто в коллективе, но - все сам.
А вы как все организуете для взаимодействия нескольких агентов?
#post
@deksden_notes
✍5❤3👍3🔥3🤯2🤔1