Agent Sessions
▶️ Есть такой open source инструмент - agent sessions (macOS). Работает с Кодексом/СС/Gemini Cli.
Смотрит сессии (транскрипты), статистику сообщений, в меню показывает лимиты.
Сделал @jazzyalex - респект! 🤟
🔗 https://github.com/jazzyalex/agent-sessions
(ц) Такое мы ставим, пользуем, поддерживаем!
#post
@deksden_notes
▶️ Есть такой open source инструмент - agent sessions (macOS). Работает с Кодексом/СС/Gemini Cli.
Смотрит сессии (транскрипты), статистику сообщений, в меню показывает лимиты.
Сделал @jazzyalex - респект! 🤟
🔗 https://github.com/jazzyalex/agent-sessions
(ц) Такое мы ставим, пользуем, поддерживаем!
#post
@deksden_notes
GitHub
GitHub - jazzyalex/agent-sessions: Session browser + Agents Analytics + Limits tracker for Codex CLI, Claude Code, OpenCode, Gemini…
Session browser + Agents Analytics + Limits tracker for Codex CLI, Claude Code, OpenCode, Gemini CLI, Factory Droid & GitHub Copilot CLI. Search ALL past sessions, filter by folder·repo, ...
👍7🔥2❤1
Галя! ... У нас - замена!
Клозеды выкатили Gpt-5.1-Codex-Max модель, и к нему Codex v0.59 с несколькими добавками
🔗 Про модель: https://openai.com/index/gpt-5-1-codex-max/
🔗 про v0.59: https://github.com/openai/codex/releases/tag/rust-v0.59.0
Примечательное:
- Follow up к Gemini 3. Волнуются за переток кодеров, определенно! Damage control - как по мне
- Max Заменяет обычный кодекс
- Дольше выполняет работу - не один я заметил про снижение "смелости" и "выносливаости" в 5.1
- Дополнительно подкрутили способности работать именно в Windows, даже статья есть (https://developers.openai.com/codex/windows)
- Кодинговые бенчи заметно повыше но на уровне ризонинга значительно выше; привет лимитам;
- v0.59 дополнительно сделал какое то новое Compact
- параллельные тулколы
- полярная лисиченька (https://github.com/openai/codex/pull/6906) - хз что такое, но мило;
▶️ Upd: заменили термины. Теперь approvals говорят об Agents Mode.
- в модели Max 4 уровня ризонинга. Дефольный - средний, второй. Выше него высокий и очень высокий.
▶️ Upd2: К полярной лисиченьке - верно заметили, что к кодексу "пришел песец".
▶️ Upd3: Codex CLI v0.60.1 released
Features
- Set gpt-5.1-codex as default model for API users.
Это было быстро)) Сингулярность наступает!
и первый раз вижу 0.xx.1 релиз. Видимо, хотфикс
#post
@deksden_notes
Клозеды выкатили Gpt-5.1-Codex-Max модель, и к нему Codex v0.59 с несколькими добавками
🔗 Про модель: https://openai.com/index/gpt-5-1-codex-max/
🔗 про v0.59: https://github.com/openai/codex/releases/tag/rust-v0.59.0
Примечательное:
- Follow up к Gemini 3. Волнуются за переток кодеров, определенно! Damage control - как по мне
- Max Заменяет обычный кодекс
- Дольше выполняет работу - не один я заметил про снижение "смелости" и "выносливаости" в 5.1
- Дополнительно подкрутили способности работать именно в Windows, даже статья есть (https://developers.openai.com/codex/windows)
- Кодинговые бенчи заметно повыше но на уровне ризонинга значительно выше; привет лимитам;
- v0.59 дополнительно сделал какое то новое Compact
- параллельные тулколы
- полярная лисиченька (https://github.com/openai/codex/pull/6906) - хз что такое, но мило;
▶️ Upd: заменили термины. Теперь approvals говорят об Agents Mode.
- в модели Max 4 уровня ризонинга. Дефольный - средний, второй. Выше него высокий и очень высокий.
▶️ Upd2: К полярной лисиченьке - верно заметили, что к кодексу "пришел песец".
▶️ Upd3: Codex CLI v0.60.1 released
Features
- Set gpt-5.1-codex as default model for API users.
Это было быстро)) Сингулярность наступает!
и первый раз вижу 0.xx.1 релиз. Видимо, хотфикс
#post
@deksden_notes
Openai
Building more with GPT-5.1-Codex-Max
Introducing GPT-5.1-Codex-Max, a faster, more intelligent agentic coding model for Codex. The model is designed for long-running, project-scale work with enhanced reasoning and token efficiency.
1🔥5❤1
Codex-5.1-Max тест
Кто то смотрел на мой #DeksdenFlow (про него подробнее есть по нештегу) - решил я затестить новый Макс на предмет агентности. Был заинтригован тейком про некие "long running tasks".
Сделал вариацию флоу, упрощенную, назвал mini-protocol: когда делаем план в текущей ветке main, план пишем в один файл, но также идем по шагам (группа задач) и делаем сохранение контекста/лога/коммитим после каждого шага.
В общем, небольшой протокол из 3х шагов, в каждом 5-6 задач.
Сказал - сделать весь протокол за раз, без остановок!
Итоги: шаги 1 и 2 сделал ваншотом, но после 01 шага забыл сделать коммит, сделал после 02 шага и остановился. Работал 22 минуты на -max-medium (топовый нейминг, да?).
Шаг 03 доделал нормально, с соблюдением протокола.
▶️ В общем - неплохо, но не АГИ и не вау.
Кто то смотрел на мой #DeksdenFlow (про него подробнее есть по нештегу) - решил я затестить новый Макс на предмет агентности. Был заинтригован тейком про некие "long running tasks".
Сделал вариацию флоу, упрощенную, назвал mini-protocol: когда делаем план в текущей ветке main, план пишем в один файл, но также идем по шагам (группа задач) и делаем сохранение контекста/лога/коммитим после каждого шага.
В общем, небольшой протокол из 3х шагов, в каждом 5-6 задач.
Сказал - сделать весь протокол за раз, без остановок!
Итоги: шаги 1 и 2 сделал ваншотом, но после 01 шага забыл сделать коммит, сделал после 02 шага и остановился. Работал 22 минуты на -max-medium (топовый нейминг, да?).
Шаг 03 доделал нормально, с соблюдением протокола.
▶️ В общем - неплохо, но не АГИ и не вау.
🔥2👍1
Jules + Gemini 3 Pro
Не стал писать про сабж, пока не раскатали доступ к Gemini 3 хотя бы на Pro подписчиков - пишут, что раскатали!
Еще один способ потрогать Gemini 3 с кодом.
https://jules.google/docs/changelog/#introducing-gemini-3-pro
▶️ Upd: на всякий проверил Gemini CLI - нет, для AI PRO доступа пока не дали.
Не стал писать про сабж, пока не раскатали доступ к Gemini 3 хотя бы на Pro подписчиков - пишут, что раскатали!
Еще один способ потрогать Gemini 3 с кодом.
https://jules.google/docs/changelog/#introducing-gemini-3-pro
▶️ Upd: на всякий проверил Gemini CLI - нет, для AI PRO доступа пока не дали.
1🔥3
DROID: Background processes
Впилили менеджер фоновых процессов:
https://x.com/bentossell/status/1991425204380397647?s=20
Еще на одну фичу ближе к СС. Пожалуй, самый упакованный из альтернатив СС выходит! Жаль что закрытый. Зато все что надо скопировано! Скиллы накануне скопировали.
Больше упряжек - хороших и разных
Впилили менеджер фоновых процессов:
https://x.com/bentossell/status/1991425204380397647?s=20
Еще на одну фичу ближе к СС. Пожалуй, самый упакованный из альтернатив СС выходит! Жаль что закрытый. Зато все что надо скопировано! Скиллы накануне скопировали.
Больше упряжек - хороших и разных
X (formerly Twitter)
Ben Tossell (@bentossell) on X
droid background processes: ON
👍1
Gemini 3 Pro in CLI
... раскатилось на пользователей Про аккаунтов из листа ожидания!
Мне тоже раскатили - confirmed. Потребовался повторный вход в аккаунт, имейте ввиду - видимо, иногда так бывает
Go тестить, они создали!..
#post
@deksden_notes
... раскатилось на пользователей Про аккаунтов из листа ожидания!
Мне тоже раскатили - confirmed. Потребовался повторный вход в аккаунт, имейте ввиду - видимо, иногда так бывает
Go тестить, они создали!..
#post
@deksden_notes
MCP Apps
Все же помнят протокол MCP? Так вот - он развивается, несмотря на критику отдельных моментов (я про context rot и решение в виде code mode execution).
Так вот - MCP UI и OpenAI Apps SDK родили в итоге MCP Apps
Читаем анонс в блоге
https://blog.modelcontextprotocol.io/posts/2025-11-21-mcp-apps/
Сама спека по ссылке чуть выше, но вот сам драфт документа:
https://github.com/modelcontextprotocol/ext-apps/blob/main/specification/draft/apps.mdx
Что дает? Возможность серверам выдавать стандартизированное UI для хоста. Фича интересная, применение тоже вроде бы разнообразное. Круто что вендоры объеденились, и вместо 2х разных решений мы получим единую спеку, с шансами на широкую адоптацию в отрасли.
Прикольно
(ц) Такое мы одобряем!
#post
@deksden_notes
Все же помнят протокол MCP? Так вот - он развивается, несмотря на критику отдельных моментов (я про context rot и решение в виде code mode execution).
Так вот - MCP UI и OpenAI Apps SDK родили в итоге MCP Apps
Читаем анонс в блоге
https://blog.modelcontextprotocol.io/posts/2025-11-21-mcp-apps/
Сама спека по ссылке чуть выше, но вот сам драфт документа:
https://github.com/modelcontextprotocol/ext-apps/blob/main/specification/draft/apps.mdx
Что дает? Возможность серверам выдавать стандартизированное UI для хоста. Фича интересная, применение тоже вроде бы разнообразное. Круто что вендоры объеденились, и вместо 2х разных решений мы получим единую спеку, с шансами на широкую адоптацию в отрасли.
Прикольно
(ц) Такое мы одобряем!
#post
@deksden_notes
MCP-UI
MCP-UI | Interactive UI for MCP
Interactive UI for MCP - Build rich, dynamic interfaces with MCP-UI
👍3
Google Stitch + 🍌 Pro
Никто особо не пишет, но у Гугла же есть UI design tool c AI:
🔗 https://stitch.withgoogle.com/
Ну так вот - туда точно завезли NanoBanana Pro, и не исключаю что Gemini 3 Pro, но точно пока не понял.
Впрочем, этим инструментом пока не пользовался, хотя попробовать планирую. Отслеживаю в любом случае!
#post
@deksden_notes
Никто особо не пишет, но у Гугла же есть UI design tool c AI:
🔗 https://stitch.withgoogle.com/
Ну так вот - туда точно завезли NanoBanana Pro, и не исключаю что Gemini 3 Pro, но точно пока не понял.
Впрочем, этим инструментом пока не пользовался, хотя попробовать планирую. Отслеживаю в любом случае!
#post
@deksden_notes
Stitch
Stitch - Design with AI
Stitch generates UIs for mobile and web applications, making design ideation fast and easy.
👍7❤1🔥1
Google Gemini 3 Pro первые впечатления
Upd: Пост будет пополняться свежими впечатлениями, чтобы не спамить. Кому интересно - смотрим апдейты.
1️⃣ Еще не затестил в полном объеме и с кодом, но первый плюсик Гемини заработала.
👉 Решал проблему входа в виртуалку Ubuntu под Paralllels на macOs. Случилась проблема с конфигурацией сетевых адаптеров и режимов работы.
- Кодекс решить не смог, итераций 5-7 заняло.
- Гемини 3 Про за 3 итерации решило.
Вывод: у меня всегда были ощущения что эрудиция Гемини повыше - что и подтвердилось. В devOps заработан плюсик в сравнении!
Upd 2️⃣ : По сравнению с Кодексом Гемини жесть какая болтливая в CLI - чего то рассуждает, делает, комментирует - но мне скорее нравится! Кодекс все таки слишком аутичный.
Upd 3️⃣ : Модель своеобразно слушается инструкций. Насчет чего делать или НЕ делать - регулярно игнорирует. Говоришь "не делай код, давай обсудим" - стартует писать. помимо личных впечатлений этого рода, еще несколько мнений аналогичных слышал. Видимо, это они так агентность подтянули!
Еще такой кейс: модель затащила большой рефакторинг, причем не останавливалась пока весь план не доделала. Не засекал сколько работала, но достойно. CLI. Начал доделывать какие то моменты - кончился лимит. Переключение на другой акк не сработало (я ж его в лист ожидания то не внес! omfg), и я решил что фигня вопрос - добьем 2.5про. В общем, это было ошибкой: все кончилось git reset после нескольких кругов правок. Не писал я код через 2.5 - и не стоило начинать! В общем, 2.5 к тройке как флеш был к 2.5! Фоллбэк вас не порадует, имейте ввиду. Может, для тривиальных задач и норм, но я жду ресета )) Пока расчехляем кодекс
Upd 4️⃣ : Модель вольно относится к инструкциям - если говорить ей "давай обсудим", то шансы что она побежит делать код весьма велики. Своевольная, слабо послушная. Фокус во внимании - на детали самой задачи, а вот как делать, тут агентность выкручена, поэтому со своими указивками лезть ей под ноги не всегда получается
(ц) Продолжаем наблюдение! 🫡
#post
@deksden_notes
Upd: Пост будет пополняться свежими впечатлениями, чтобы не спамить. Кому интересно - смотрим апдейты.
1️⃣ Еще не затестил в полном объеме и с кодом, но первый плюсик Гемини заработала.
👉 Решал проблему входа в виртуалку Ubuntu под Paralllels на macOs. Случилась проблема с конфигурацией сетевых адаптеров и режимов работы.
- Кодекс решить не смог, итераций 5-7 заняло.
- Гемини 3 Про за 3 итерации решило.
Вывод: у меня всегда были ощущения что эрудиция Гемини повыше - что и подтвердилось. В devOps заработан плюсик в сравнении!
Upd 2️⃣ : По сравнению с Кодексом Гемини жесть какая болтливая в CLI - чего то рассуждает, делает, комментирует - но мне скорее нравится! Кодекс все таки слишком аутичный.
Upd 3️⃣ : Модель своеобразно слушается инструкций. Насчет чего делать или НЕ делать - регулярно игнорирует. Говоришь "не делай код, давай обсудим" - стартует писать. помимо личных впечатлений этого рода, еще несколько мнений аналогичных слышал. Видимо, это они так агентность подтянули!
Еще такой кейс: модель затащила большой рефакторинг, причем не останавливалась пока весь план не доделала. Не засекал сколько работала, но достойно. CLI. Начал доделывать какие то моменты - кончился лимит. Переключение на другой акк не сработало (я ж его в лист ожидания то не внес! omfg), и я решил что фигня вопрос - добьем 2.5про. В общем, это было ошибкой: все кончилось git reset после нескольких кругов правок. Не писал я код через 2.5 - и не стоило начинать! В общем, 2.5 к тройке как флеш был к 2.5! Фоллбэк вас не порадует, имейте ввиду. Может, для тривиальных задач и норм, но я жду ресета )) Пока расчехляем кодекс
Upd 4️⃣ : Модель вольно относится к инструкциям - если говорить ей "давай обсудим", то шансы что она побежит делать код весьма велики. Своевольная, слабо послушная. Фокус во внимании - на детали самой задачи, а вот как делать, тут агентность выкручена, поэтому со своими указивками лезть ей под ноги не всегда получается
(ц) Продолжаем наблюдение! 🫡
#post
@deksden_notes
👍8
Opus 4.5
Слухи не отпускают, возможно антропики готовят сабж. Он им и вправду нужен!
Кмк, ситуация для них сложная: им нужно решить 2 большие задачи:
- сделать модель не менее умной чем gpt-5.1/gt-5.1-codex-max, Gemini 3 Pro, что само по себе уже довольно сложно - учитывая что модели конкурентов отличные;
- сделать модель НЕДОРОГОЙ - потому что с текущими ценами/лимитами они сливают по всем форнтам; каждая новая кодинговая штука привыкла хвалиться ВО СКОЛЬКО РАЗ они дешевле и дают больше лимитов, чем антропики
В общем, ...
(ц) будм посмотреть!
#post
@deksden_notes
Слухи не отпускают, возможно антропики готовят сабж. Он им и вправду нужен!
Кмк, ситуация для них сложная: им нужно решить 2 большие задачи:
- сделать модель не менее умной чем gpt-5.1/gt-5.1-codex-max, Gemini 3 Pro, что само по себе уже довольно сложно - учитывая что модели конкурентов отличные;
- сделать модель НЕДОРОГОЙ - потому что с текущими ценами/лимитами они сливают по всем форнтам; каждая новая кодинговая штука привыкла хвалиться ВО СКОЛЬКО РАЗ они дешевле и дают больше лимитов, чем антропики
В общем, ...
(ц) будм посмотреть!
#post
@deksden_notes
❤3👻2
Opus 4.5 - релиз
Нынче слухи не соврали - и он с нами!
Я говорил о двух проблемах: он должен стать умнее и дешевле. Анонсировали - стал умнее и дешевле.
Умнее: SOTA на SWE Bench Verified, Выше Gemini 3 pro и Gpt-5.1 / Codex Max. Умнее sonnet 4.5, что, впрочем, логично.
Дешевле: цена ⅓ от прежнего. Лимиты - совсем другие, теперь Opus 4.5 примерно столько же, сколько было соннета 4.5 ранее - типа, его можно использовать для daily tasks.
Использует меньше токенов при таком же или лучшем результате. Значительно.
▶️ Desktop
Теперь о Desktop. Десктоп теперь умеет компактить сессию. Ну ок. Мало каким сессиям это сильно помогало, зато теперь не будет неожиданного удара об контекст.
▶️ Tool Use:
https://www.anthropic.com/engineering/advanced-tool-use
Сделали тул для поиска тулов! Теперь грузим тулы по мере необходимости, решая проблему context rot от множества MCP. Всех впечатлил MCP сервер от github, да - 25k токенов.
Про programmatic tools use все понятно - пользвоать тулы в code sandbox и там же предобработать результаты - это коненчо сильно экономичнее чем вываливать пучок данных в контекст. Хотя могли бы придумать штуку для выкусывания ненужных данных из контекста (из истории). Ну ок.
Интересное новшество: tool use examples прямо в описании тулов! Few shot lникто не отменял - это сильно повышает качество. Круто!
‼️ Хватит ли умений опуса для выравнивания с конкурентами? Посмотрим - надо тестить. Бенчмарки нормальные, от гемини опус отстает только в эрудиции. Исправили ли косяки - с враньем, с подхалимством? Посмотрим.
Почти все основные фронтирные вендоры сделали свои ставки!
Upd 1️⃣ : перечитал, посмотрел - и точно: в Claude Desktop теперь есть Claude Code - то есть Claude Code Desktop! 🔥
Upd 2️⃣ : обратили внимание на changelog CC:
- Allow Pro users to purchase extra Opus 4.5 usage
Любопытно
(ц) В интересное время живем - такое нам прикольно! )
#post
@deksden_notes
Нынче слухи не соврали - и он с нами!
Я говорил о двух проблемах: он должен стать умнее и дешевле. Анонсировали - стал умнее и дешевле.
Умнее: SOTA на SWE Bench Verified, Выше Gemini 3 pro и Gpt-5.1 / Codex Max. Умнее sonnet 4.5, что, впрочем, логично.
Дешевле: цена ⅓ от прежнего. Лимиты - совсем другие, теперь Opus 4.5 примерно столько же, сколько было соннета 4.5 ранее - типа, его можно использовать для daily tasks.
Использует меньше токенов при таком же или лучшем результате. Значительно.
▶️ Desktop
Теперь о Desktop. Десктоп теперь умеет компактить сессию. Ну ок. Мало каким сессиям это сильно помогало, зато теперь не будет неожиданного удара об контекст.
▶️ Tool Use:
https://www.anthropic.com/engineering/advanced-tool-use
Сделали тул для поиска тулов! Теперь грузим тулы по мере необходимости, решая проблему context rot от множества MCP. Всех впечатлил MCP сервер от github, да - 25k токенов.
Про programmatic tools use все понятно - пользвоать тулы в code sandbox и там же предобработать результаты - это коненчо сильно экономичнее чем вываливать пучок данных в контекст. Хотя могли бы придумать штуку для выкусывания ненужных данных из контекста (из истории). Ну ок.
Интересное новшество: tool use examples прямо в описании тулов! Few shot lникто не отменял - это сильно повышает качество. Круто!
‼️ Хватит ли умений опуса для выравнивания с конкурентами? Посмотрим - надо тестить. Бенчмарки нормальные, от гемини опус отстает только в эрудиции. Исправили ли косяки - с враньем, с подхалимством? Посмотрим.
Почти все основные фронтирные вендоры сделали свои ставки!
Upd 1️⃣ : перечитал, посмотрел - и точно: в Claude Desktop теперь есть Claude Code - то есть Claude Code Desktop! 🔥
Upd 2️⃣ : обратили внимание на changelog CC:
- Allow Pro users to purchase extra Opus 4.5 usage
Любопытно
(ц) В интересное время живем - такое нам прикольно! )
#post
@deksden_notes
Anthropic
Introducing advanced tool use on the Claude Developer Platform
Claude can now discover, learn, and execute tools dynamically to enable agents that take action in the real world. Here’s how.
🔥8👍3
🧩 Memory Bank - опрос
👉 Коллеги! Кто то пользуется в работе с проектами меморибанками / их аналогами?
❓ Какую структуру используете - какие блоки информации там держите? Эволюционировала ли у вас концепция со временем?
Агенты у вас читают меморибанк? пользуются? им помогает?
▶️ Интересна обратная связь. Планировал публиковать небольшие апдейты по теме меморибанка и подходов к ведению.
#post
@deksden_notes
👉 Коллеги! Кто то пользуется в работе с проектами меморибанками / их аналогами?
❓ Какую структуру используете - какие блоки информации там держите? Эволюционировала ли у вас концепция со временем?
Агенты у вас читают меморибанк? пользуются? им помогает?
▶️ Интересна обратная связь. Планировал публиковать небольшие апдейты по теме меморибанка и подходов к ведению.
#post
@deksden_notes
🔥4
Way back context
О технике промптинга
Интересно, как быстро вендоры додумаются до сворачивания истории «прыжком в прошлое»?
Чтобы контекст экономить.
Типа, модель что то делала-делала, и у нее наконец получилось (или не получилось) - и мы режем историю, возвращаемся в момент когда это все только начиналось и рассказываем модели чем все кончилось (успех или неуспех). Как в «назад в будущее».
Результат? Экономия контекста, эффективные «хождения кругами», без траты контекста, cache friendly к слову!
Пока я это иногда делаю руками для своих сообщений в кодексе с esc esc - типа обсудил что то детальное, уяснил, вернулся к старту обсуждения и продолжил по первоначальной теме разговор.
Но это будет дико полезно для любой агентной работы!
О технике промптинга
Интересно, как быстро вендоры додумаются до сворачивания истории «прыжком в прошлое»?
Чтобы контекст экономить.
Типа, модель что то делала-делала, и у нее наконец получилось (или не получилось) - и мы режем историю, возвращаемся в момент когда это все только начиналось и рассказываем модели чем все кончилось (успех или неуспех). Как в «назад в будущее».
Результат? Экономия контекста, эффективные «хождения кругами», без траты контекста, cache friendly к слову!
Пока я это иногда делаю руками для своих сообщений в кодексе с esc esc - типа обсудил что то детальное, уяснил, вернулся к старту обсуждения и продолжил по первоначальной теме разговор.
Но это будет дико полезно для любой агентной работы!
1🔥10💯4👍1👻1
Экономическое
Уже и грок сравнивает во сколько раз он дешевле антропиков!
https://x.com/xfreeze/status/1993328493359215054?s=46
Сомнительное реноме на рынке.
#post
@deksden_notes
Уже и грок сравнивает во сколько раз он дешевле антропиков!
https://x.com/xfreeze/status/1993328493359215054?s=46
Сомнительное реноме на рынке.
#post
@deksden_notes
X (formerly Twitter)
X Freeze (@XFreeze) on X
Grok 4.1 Fast ranks #1 𝜏²-Bench for Telecom Agentic Tool Use - with 93% accuracy outperforming Claude Opus 4.5 & Gemini 3 Pro
Tool calling is where the whole game is for AI agents, and this is where Grok 4.1 Fast takes over
While costing up-to 50x less…
Tool calling is where the whole game is for AI agents, and this is where Grok 4.1 Fast takes over
While costing up-to 50x less…
Agents по антропиковски
Анты тут бросили интересную статейку прочитать
Effective harnesses for long-running agents
🔗 https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents
Замечу - опять harness вместо scaffold. Ну - упряжка, так упряжка. "Запрягайте, братцы конев!" ))
🟢 Статейка годная, откровений не содержит, но из категории обязательных к прочтению про AI SWE. Посему чувствую моральную обязанность чиркнуть "разбор".
Глянул код. Забавно - прога примера на питоне, использует Agents SDK чтобы сделать прогу на JS )) Причем, через АПИ ключ, они не могли по-другому! (тут вставляем мем "Платно!" с гослингом).
▶️ Спека в .txt, но внутри все структурировано XML-like тегами с легким md форматированием. Хозяйке на заметку - теги никто не отменял. В мой список приемов контекст-инжиниринга, конечно тоже входит.
Разделы спеки: техстек - фрон/бэк, настройка Dev окружения, список фич приложения, схема БД, спека ручек апи, схема UI морды, отдельно - дизайн система, отдельно - ключевые взаимодействия в UI, мастер план создания приложения по шагам с задачами каждого шага, список критериев успеха (ACs, gates).
Спека вроде бы достаточно краткая, тезисная, но содержит впечатляющего разнообразия набор разделов, есть о чем сделать вывод для своих спеков.
▶️ Даже в промпте первой стадии инициализации указано чтобы файл списка фич он не трогал. Капсом. Значит они знают как агент любит "срезать углы" - делали фичи, устали, удалили половину фич, и сказали что все уже сделали))
Также сохранение контекста - через файловую систему, но инструкции довольно примитивные. По мне так очень не очень.
▶️ Кодинговый агент - идентично моему протоколу, есть фаза проверок. Не рабоатем, если проверки падают.
Понятно, что агент работает ТОЛЬКО с верификацией: пишем код, проверяем через тесты.
Также много заборов в промпте чтобы углы не срезал. Какие? Протестировать только бэк без взаимодействия с фронтом, нет контроля визуала, использовать JS эвалы вместо UI взаимодействия, отметить тесты проходящими без верификации.
С учетом, что промпт - это пример, даже в нем столько заборов. Для реальной системы их должно быть еще больше. Думаю, даже фокусная сессия отдельного агента на чистом контексте с фокусной задачей верификации на каждый аспект - видимо, иначе нынче никак. Вот вам откуда 6-8 часов работы у кодомашины! Мои флоу тоже часами бегают, пока как быстрее я не знаю.
Также используют файл статуса (как мой context.md), но у них claude-progress.txt - более семантическое имя, к слову.
Также отмечу: много раз указано что времени у агента unlimited, типа - спешить не стоит! Видимо, не только у кодекса агенты вечно куда то опаздывают и спешат. Что RL с нейросетями делает, нервные и задерганные они все какие нынче.
...
Анты тут бросили интересную статейку прочитать
Effective harnesses for long-running agents
🔗 https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents
Замечу - опять harness вместо scaffold. Ну - упряжка, так упряжка. "Запрягайте, братцы конев!" ))
🟢 Статейка годная, откровений не содержит, но из категории обязательных к прочтению про AI SWE. Посему чувствую моральную обязанность чиркнуть "разбор".
Глянул код. Забавно - прога примера на питоне, использует Agents SDK чтобы сделать прогу на JS )) Причем, через АПИ ключ, они не могли по-другому! (тут вставляем мем "Платно!" с гослингом).
▶️ Спека в .txt, но внутри все структурировано XML-like тегами с легким md форматированием. Хозяйке на заметку - теги никто не отменял. В мой список приемов контекст-инжиниринга, конечно тоже входит.
Разделы спеки: техстек - фрон/бэк, настройка Dev окружения, список фич приложения, схема БД, спека ручек апи, схема UI морды, отдельно - дизайн система, отдельно - ключевые взаимодействия в UI, мастер план создания приложения по шагам с задачами каждого шага, список критериев успеха (ACs, gates).
Спека вроде бы достаточно краткая, тезисная, но содержит впечатляющего разнообразия набор разделов, есть о чем сделать вывод для своих спеков.
▶️ Даже в промпте первой стадии инициализации указано чтобы файл списка фич он не трогал. Капсом. Значит они знают как агент любит "срезать углы" - делали фичи, устали, удалили половину фич, и сказали что все уже сделали))
Также сохранение контекста - через файловую систему, но инструкции довольно примитивные. По мне так очень не очень.
▶️ Кодинговый агент - идентично моему протоколу, есть фаза проверок. Не рабоатем, если проверки падают.
Понятно, что агент работает ТОЛЬКО с верификацией: пишем код, проверяем через тесты.
Также много заборов в промпте чтобы углы не срезал. Какие? Протестировать только бэк без взаимодействия с фронтом, нет контроля визуала, использовать JS эвалы вместо UI взаимодействия, отметить тесты проходящими без верификации.
С учетом, что промпт - это пример, даже в нем столько заборов. Для реальной системы их должно быть еще больше. Думаю, даже фокусная сессия отдельного агента на чистом контексте с фокусной задачей верификации на каждый аспект - видимо, иначе нынче никак. Вот вам откуда 6-8 часов работы у кодомашины! Мои флоу тоже часами бегают, пока как быстрее я не знаю.
Также используют файл статуса (как мой context.md), но у них claude-progress.txt - более семантическое имя, к слову.
Также отмечу: много раз указано что времени у агента unlimited, типа - спешить не стоит! Видимо, не только у кодекса агенты вечно куда то опаздывают и спешат. Что RL с нейросетями делает, нервные и задерганные они все какие нынче.
...
Anthropic
Effective harnesses for long-running agents
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
👍8🔥5❤2