⚪️ Codex Sub-Agents, vNext
В связи с предыдущим постом, я тут немного поразбирался в субагентах кодекса. В связи с чем решил накатать этот пост.
▶️ Во-первых, и это уже месяц минимум как не новость - в кодексе сделали более-менее стандартных субагентов как в СС. То есть их можно описывать в отдельном файле, обзывать по имени, и задавать им кастомный промпт с настройками тулов/mcp. Всё "как у людей", вернее, как в СС было с лета 2025)) Поэтому чувство дежавю легкое. Но тут клозеды не удержались, и сделали не в стандартном md файле описание, а в .toml. Не особо страшно, но не удобно - скиллы то они нормальные заюзали! Надо будет насоветовать им в сторону md с фронтметтером. Чего они выделяются то?!
❓Спросите - ну и чо? На самом деле это открывает возможность создания кастомных агентов, промптом заточенных на определенную задачу, которые уже умеют делать эту задачу (за счет промпта) и им не надо разбираться как оно делается. Вроде бы и стандартный агент может скилл прочитать... Поэтому - да, сейчас скиллы во многом заменили кастомных агентов, может быть поэтому новость прошла мимо меня.
▶️ Во-вторых, поразбирался в потрохах системы суб-агентов. Не особый секрет, что сейчас в кодексе делается новая версия агентного сварма, который исторически в коде именуется multi-agent, а на публике стал sub-agents. В общем, в кодексе готовится multi-agents-v2, которую уже можно включить фичафлагом (multi_agent_v2).
Тут много заметных ихменений. Самое главное - это модель коммуникации/управления субагентами. Раньше субагент запускался как дочерняя сессия, и задачи ему поступали как имитация сообщения пользвоателя. И ответ поступал как сообщение пользвоателя. Поэтому в апи управления субагентами было ожидание определенного субагента.
▶️ В новой системе перешли на "агентную почту". Агент может отпарвить сообщения другому агенту (считайте, что по имени). Можно "заснуть" до момента поступления любого сообщения. То есть оркестратор запустив в работу сварм субагентов, может "заснуть" и ожидать, когда его разбудит или сообщение от любого агента, или ввод пользователя. Теперь не обязательно "бегать кругами вокруг агентов" в ожидании результата! Ну и агентная почта поступает с метаданными - то есть видно кто написал.
Письма субагенту могут прерывать его текущую работу, или нет. Если нет - то это аналог steer сообщений пользователя, которые поступают в контекст модели и она принимает их "к сведению".
▶️ Есть некоторые особенности управления контекстом для субагентов. Если мы наследуем контекст родительской сессии - то мы наследуем и модель, и все сообщения сессии, и уровень ризонинга.
Но есть и возможность начинать субагента либо с пустого контекста, либо взять в контекст один или более последних "ходов". Ход - это группа сообщений сессии, обычно от сообщения пользователя до завершения работы модели и ее финального сообщения. Из этих ходов фильтруются все блоки размышлений, тулюза - остаются только промежуточные комментарии модели при выполнении и сообщения (видимо, пользвоателя и других агентов).
Кастомного субагента (терминология плавает - это то agent role, то agent type) может быть назначена только если контекст пустой или настледует ограниченное количество ходов. полный форк сессии не позволяет "повесить" на нее роль - видимо, потому что только чатсичный форк позволяет собрать контекст заново, с инъекцией инструкций кастомного субагента вначале.
▶️ В общем, система выглядит гораздо более рабочей в части мультиагентного применения.
@deksden_notes
В связи с предыдущим постом, я тут немного поразбирался в субагентах кодекса. В связи с чем решил накатать этот пост.
▶️ Во-первых, и это уже месяц минимум как не новость - в кодексе сделали более-менее стандартных субагентов как в СС. То есть их можно описывать в отдельном файле, обзывать по имени, и задавать им кастомный промпт с настройками тулов/mcp. Всё "как у людей", вернее, как в СС было с лета 2025)) Поэтому чувство дежавю легкое. Но тут клозеды не удержались, и сделали не в стандартном md файле описание, а в .toml. Не особо страшно, но не удобно - скиллы то они нормальные заюзали! Надо будет насоветовать им в сторону md с фронтметтером. Чего они выделяются то?!
❓Спросите - ну и чо? На самом деле это открывает возможность создания кастомных агентов, промптом заточенных на определенную задачу, которые уже умеют делать эту задачу (за счет промпта) и им не надо разбираться как оно делается. Вроде бы и стандартный агент может скилл прочитать... Поэтому - да, сейчас скиллы во многом заменили кастомных агентов, может быть поэтому новость прошла мимо меня.
▶️ Во-вторых, поразбирался в потрохах системы суб-агентов. Не особый секрет, что сейчас в кодексе делается новая версия агентного сварма, который исторически в коде именуется multi-agent, а на публике стал sub-agents. В общем, в кодексе готовится multi-agents-v2, которую уже можно включить фичафлагом (multi_agent_v2).
Тут много заметных ихменений. Самое главное - это модель коммуникации/управления субагентами. Раньше субагент запускался как дочерняя сессия, и задачи ему поступали как имитация сообщения пользвоателя. И ответ поступал как сообщение пользвоателя. Поэтому в апи управления субагентами было ожидание определенного субагента.
▶️ В новой системе перешли на "агентную почту". Агент может отпарвить сообщения другому агенту (считайте, что по имени). Можно "заснуть" до момента поступления любого сообщения. То есть оркестратор запустив в работу сварм субагентов, может "заснуть" и ожидать, когда его разбудит или сообщение от любого агента, или ввод пользователя. Теперь не обязательно "бегать кругами вокруг агентов" в ожидании результата! Ну и агентная почта поступает с метаданными - то есть видно кто написал.
Письма субагенту могут прерывать его текущую работу, или нет. Если нет - то это аналог steer сообщений пользователя, которые поступают в контекст модели и она принимает их "к сведению".
▶️ Есть некоторые особенности управления контекстом для субагентов. Если мы наследуем контекст родительской сессии - то мы наследуем и модель, и все сообщения сессии, и уровень ризонинга.
Но есть и возможность начинать субагента либо с пустого контекста, либо взять в контекст один или более последних "ходов". Ход - это группа сообщений сессии, обычно от сообщения пользователя до завершения работы модели и ее финального сообщения. Из этих ходов фильтруются все блоки размышлений, тулюза - остаются только промежуточные комментарии модели при выполнении и сообщения (видимо, пользвоателя и других агентов).
Кастомного субагента (терминология плавает - это то agent role, то agent type) может быть назначена только если контекст пустой или настледует ограниченное количество ходов. полный форк сессии не позволяет "повесить" на нее роль - видимо, потому что только чатсичный форк позволяет собрать контекст заново, с инъекцией инструкций кастомного субагента вначале.
▶️ В общем, система выглядит гораздо более рабочей в части мультиагентного применения.
@deksden_notes
👍15🔥6❤3✍1❤🔥1
⚪️ Суб-агенты: зачем
❓ В чатике нашего канала (welcome, если что, ссылка в описании канала) встал закономерный вопрос: а как можно использовать субагентов, чем они важны или полезны?
▶️ Сразу скажу что работать можно вполне и без субагентов, нет такой работы, которую бы можно сделать только субагентами. Последовательное выполнение задач вполне себе работает (исключение которое мне кажется имеется - скажу позже)
Какие же задачи можно решать субагентами эффективно?
▶️ Прежде всего - исследования. Шикарно сварм работает когда мы хотим что то найти в проекте, разобраться в чем то. Можно назначит ьсубагенту мелкую модель (например, gpt-5.4-mini) и она довольно быстро, щадящим образом для лимитов соберет вам контекст по кодовой базе. Примеры промптов типа "разберись как в проекте работает система аутентификации, ее взаимосвязи и контракты, как она документирована - в общем, собери все. Используй субагентов для поиска на gpt-5.4-mini". В кодексе есть даже субагент explore вроде бы, видел несколько раз как он сам запускался.
▶️ Проработка разных аспектов плана. Тут посложнее.
👉 Лирическое отступление про постановку задачи и отчетность. Я ВСЕГДА делаю материализованные планы, постаноку задач и отчеты о выполнении. Это значит что все через md файлы. Да, можно в контекст сессии все пихать, и оно где то в сессии даже будет в файл записано, но использвоание файлов дает мне:
• прослеживаемость: я всегда могу открыть файл и посомтреть какое задание было дано
• артефакты задачи все в одном месте, в папке задачи, не надо искать по сессиям
• можно сослаться на план работы (ставя задачу верификации или ревью)
• часто агент может лучше поставить задачу в файл, чем в контекст, более развернуто, плюс - можно записывать задачу через паттерн рефлексии: первым шагом записали черновик задачи, вторым шагом промпт на "доработай задачу, ..." - и станет заметно лучше;
• задачу в файле можно прорабатывать в много проходов, по разным аспектам - в контексте агент не будет пересказывать ее дословно со всеми деталями, она потеряется при длительном обсуждении;
Теперь к аспектам: когда мы делаем план, надо много вещей держать ввиду. Соблюдение паттернов, стандартов кода. Не оверинжинирить. Безопасность кода. Документирвоание именений. Переимпользование сущностей кода и следование архзитектуре проекта. Работа с БД/хранилищем, миграции и прочие приколы. Соблюдение принятого в проекте гит флоу. Соблюдение подходов к CI / CD, схема выкатки деплоев. ... Думаю, вы можете в зависимости от специфики проекта перечислить массу таких аспектов!
Для того чтобы план работы был проработан по всем этим аспектам, и проработан хорошо, в идеале нужно каждый аспект прогонять моделью отдельно - тогда она качественно этот аспект проработает. В отдельных ответственных случаях я делаю @3 самплинг (это когда задача повторяется три раза, а потом мы интегрируем результат, при это 3 минимально полезный самплинг, лучше 5 делать для прям хорошего качества).
Как вы понимаете, если у вас десяток аспектов - то это уже 10 запусков агента. А если на часть и @3 самплинг, ... В общем, тут тоже здорово работает модель запустить это через субагентов. Промптинг я делаю на постановку задачи через файл, на результат отработки задачи через файл.
... (продолжение: https://t.me/deksden_notes/713)
❓ В чатике нашего канала (welcome, если что, ссылка в описании канала) встал закономерный вопрос: а как можно использовать субагентов, чем они важны или полезны?
▶️ Сразу скажу что работать можно вполне и без субагентов, нет такой работы, которую бы можно сделать только субагентами. Последовательное выполнение задач вполне себе работает (исключение которое мне кажется имеется - скажу позже)
Какие же задачи можно решать субагентами эффективно?
▶️ Прежде всего - исследования. Шикарно сварм работает когда мы хотим что то найти в проекте, разобраться в чем то. Можно назначит ьсубагенту мелкую модель (например, gpt-5.4-mini) и она довольно быстро, щадящим образом для лимитов соберет вам контекст по кодовой базе. Примеры промптов типа "разберись как в проекте работает система аутентификации, ее взаимосвязи и контракты, как она документирована - в общем, собери все. Используй субагентов для поиска на gpt-5.4-mini". В кодексе есть даже субагент explore вроде бы, видел несколько раз как он сам запускался.
▶️ Проработка разных аспектов плана. Тут посложнее.
👉 Лирическое отступление про постановку задачи и отчетность. Я ВСЕГДА делаю материализованные планы, постаноку задач и отчеты о выполнении. Это значит что все через md файлы. Да, можно в контекст сессии все пихать, и оно где то в сессии даже будет в файл записано, но использвоание файлов дает мне:
• прослеживаемость: я всегда могу открыть файл и посомтреть какое задание было дано
• артефакты задачи все в одном месте, в папке задачи, не надо искать по сессиям
• можно сослаться на план работы (ставя задачу верификации или ревью)
• часто агент может лучше поставить задачу в файл, чем в контекст, более развернуто, плюс - можно записывать задачу через паттерн рефлексии: первым шагом записали черновик задачи, вторым шагом промпт на "доработай задачу, ..." - и станет заметно лучше;
• задачу в файле можно прорабатывать в много проходов, по разным аспектам - в контексте агент не будет пересказывать ее дословно со всеми деталями, она потеряется при длительном обсуждении;
Теперь к аспектам: когда мы делаем план, надо много вещей держать ввиду. Соблюдение паттернов, стандартов кода. Не оверинжинирить. Безопасность кода. Документирвоание именений. Переимпользование сущностей кода и следование архзитектуре проекта. Работа с БД/хранилищем, миграции и прочие приколы. Соблюдение принятого в проекте гит флоу. Соблюдение подходов к CI / CD, схема выкатки деплоев. ... Думаю, вы можете в зависимости от специфики проекта перечислить массу таких аспектов!
Для того чтобы план работы был проработан по всем этим аспектам, и проработан хорошо, в идеале нужно каждый аспект прогонять моделью отдельно - тогда она качественно этот аспект проработает. В отдельных ответственных случаях я делаю @3 самплинг (это когда задача повторяется три раза, а потом мы интегрируем результат, при это 3 минимально полезный самплинг, лучше 5 делать для прям хорошего качества).
Как вы понимаете, если у вас десяток аспектов - то это уже 10 запусков агента. А если на часть и @3 самплинг, ... В общем, тут тоже здорово работает модель запустить это через субагентов. Промптинг я делаю на постановку задачи через файл, на результат отработки задачи через файл.
... (продолжение: https://t.me/deksden_notes/713)
Telegram
DEKSDEN notes
⚪️ Суб-агенты: зачем (ч2)
... (начало тут: https://t.me/deksden_notes/712)
▶️ Параллельные кодинговые задачи. Если поручить модели прописать некоторые задачи параллельно, то она справится. Ваш план будет разбит на задачи, они выстроены в граф, который…
... (начало тут: https://t.me/deksden_notes/712)
▶️ Параллельные кодинговые задачи. Если поручить модели прописать некоторые задачи параллельно, то она справится. Ваш план будет разбит на задачи, они выстроены в граф, который…
👍11❤3🔥2❤🔥1🕊1
⚪️ Суб-агенты: зачем (ч2)
... (начало тут: https://t.me/deksden_notes/712)
▶️ Параллельные кодинговые задачи. Если поручить модели прописать некоторые задачи параллельно, то она справится. Ваш план будет разбит на задачи, они выстроены в граф, который можно будет частично запустить параллельно. Конечно, промптинг должен быть на работу через файлы.
Если у меня субагенты меняют код или доку, я обязательно запускаю субагента на верификацию этих изменений против оригинального плана. Потом дорабатываем выявленные недостатки.
Это не заменяет того, что большие задачи параллельно делать можно только через разбивку на рабочие деревья и работу в изолированной ветке с последующим PR.
▶️ (что сложно сделать в один поток без субагентов) Если вы хотите интерактивно в сессии с codex.app/cli сделать длинную и объемную задачу, то с 5.4 и 5.5 это довольно просто сделать субагентами. Когда задача разложена на субагентов, а модель верхнего уровня занимается только оркестрацией: отслеживанием протокола выполнения вашего плана, то у меня удавалось за один шот делать протоколы полностью длинной в несколько часов: где было предусмотрено и внесение изменений в кучу модулей кода и документации, запуск тестов, запуск приемочных сценариев, деплой на бэта стейджи, контроль CI на хостингах (гитхаб и vercel как минимум), смоук проверки на деплое. В общем, даже такой кучерявый план работы вполне ваншотится.
Линейно в рамках одного контекста это сделать было бы сложно: модель теряет агентную выносливость, когда перегружается тулюзами/деталями кодинга, и прочих операций нижнего уровня.
В модели же "оркестратор" - "субагенты" такая связка бегает на очень и очень длинные дистанции!
👉 Надеюсь, я подсветил некоторые полезные паттерны использвоания субагентов. Да, это же самое работает для СС с пометкой что клод немного менее ответственный для следования инструкциям и работает немного по своей логике.
❓ Какими вы пользуетесь паттернами для субагентов? Чего то забыл? подсказывайте - зашарим как апдейт к посту в канал
@deksden_notes
... (начало тут: https://t.me/deksden_notes/712)
▶️ Параллельные кодинговые задачи. Если поручить модели прописать некоторые задачи параллельно, то она справится. Ваш план будет разбит на задачи, они выстроены в граф, который можно будет частично запустить параллельно. Конечно, промптинг должен быть на работу через файлы.
Если у меня субагенты меняют код или доку, я обязательно запускаю субагента на верификацию этих изменений против оригинального плана. Потом дорабатываем выявленные недостатки.
Это не заменяет того, что большие задачи параллельно делать можно только через разбивку на рабочие деревья и работу в изолированной ветке с последующим PR.
▶️ (что сложно сделать в один поток без субагентов) Если вы хотите интерактивно в сессии с codex.app/cli сделать длинную и объемную задачу, то с 5.4 и 5.5 это довольно просто сделать субагентами. Когда задача разложена на субагентов, а модель верхнего уровня занимается только оркестрацией: отслеживанием протокола выполнения вашего плана, то у меня удавалось за один шот делать протоколы полностью длинной в несколько часов: где было предусмотрено и внесение изменений в кучу модулей кода и документации, запуск тестов, запуск приемочных сценариев, деплой на бэта стейджи, контроль CI на хостингах (гитхаб и vercel как минимум), смоук проверки на деплое. В общем, даже такой кучерявый план работы вполне ваншотится.
Линейно в рамках одного контекста это сделать было бы сложно: модель теряет агентную выносливость, когда перегружается тулюзами/деталями кодинга, и прочих операций нижнего уровня.
В модели же "оркестратор" - "субагенты" такая связка бегает на очень и очень длинные дистанции!
👉 Надеюсь, я подсветил некоторые полезные паттерны использвоания субагентов. Да, это же самое работает для СС с пометкой что клод немного менее ответственный для следования инструкциям и работает немного по своей логике.
❓ Какими вы пользуетесь паттернами для субагентов? Чего то забыл? подсказывайте - зашарим как апдейт к посту в канал
@deksden_notes
Telegram
DEKSDEN notes
⚪️ Суб-агенты: зачем
❓ В чатике нашего канала (welcome, если что, ссылка в описании канала) встал закономерный вопрос: а как можно использовать субагентов, чем они важны или полезны?
▶️ Сразу скажу что работать можно вполне и без субагентов, нет такой…
❓ В чатике нашего канала (welcome, если что, ссылка в описании канала) встал закономерный вопрос: а как можно использовать субагентов, чем они важны или полезны?
▶️ Сразу скажу что работать можно вполне и без субагентов, нет такой…
👍20❤🔥3🕊2❤1🔥1
⚪️ Клод и сторонние упряжки
Шикарный баг раскопал мужик!
🔗 Полная история тут: https://x.com/om_patel5/status/2048204411986469232?s=46
Короче, ничего не предвещало, никаких сторонних упряжек, и тут он очень удивился когда увидел сожженные $200 на своем extra usage. Стал разбираться. История, похоже, такая: у него в гит репо есть файлик HERMES.md (именно так, капсом и с мелкими буквами в расширении, и именно с расширением). Hermes ok, HERMES без расширения ок.
Короче, СС в системный промпт добавляет гит статус и список правок репо. В итоге сервера антропика видят HERMES.md и помечают сессию как "сторонняя упряжка" (видимо, детектят hermes agent).
Боты поддержки денег не вернули. Но нытье в твиттере творит чудеса - разрабы баг признали, и обещают рефанд пострадавшим, и еще один месяц экстра-кредитов в размере подписки ($200 в его случае).
👉 В общем, случай возможно кончился хорошо, но вы имейте ввиду - если вас удивит текущий биллинг. Думаю, это не единственный паттерн детекции сторонних упряжек, и не единственный баг в ней.
(ц) будни мира с вайбкоденным софтом
@deksden_notes
Шикарный баг раскопал мужик!
🔗 Полная история тут: https://x.com/om_patel5/status/2048204411986469232?s=46
Короче, ничего не предвещало, никаких сторонних упряжек, и тут он очень удивился когда увидел сожженные $200 на своем extra usage. Стал разбираться. История, похоже, такая: у него в гит репо есть файлик HERMES.md (именно так, капсом и с мелкими буквами в расширении, и именно с расширением). Hermes ok, HERMES без расширения ок.
Короче, СС в системный промпт добавляет гит статус и список правок репо. В итоге сервера антропика видят HERMES.md и помечают сессию как "сторонняя упряжка" (видимо, детектят hermes agent).
Боты поддержки денег не вернули. Но нытье в твиттере творит чудеса - разрабы баг признали, и обещают рефанд пострадавшим, и еще один месяц экстра-кредитов в размере подписки ($200 в его случае).
👉 В общем, случай возможно кончился хорошо, но вы имейте ввиду - если вас удивит текущий биллинг. Думаю, это не единственный паттерн детекции сторонних упряжек, и не единственный баг в ней.
(ц) будни мира с вайбкоденным софтом
@deksden_notes
X (formerly Twitter)
Om Patel (@om_patel5) on X
THIS GUY LOST $200 IN ONE DAY BECAUSE THE STRING "HERMES.md" WAS IN HIS GIT COMMITS
HERMES.md is a real convention used in AI agent projects. it's a system prompt specification file. not some obscure edge case
he's on claude max 20x at $200 a month. yesterday…
HERMES.md is a real convention used in AI agent projects. it's a system prompt specification file. not some obscure edge case
he's on claude max 20x at $200 a month. yesterday…
🔥10🤡6❤3😁3
⚪️ Никогда такого не было - и вот опять!
Не могу не написать про этот шикарный случай. Помимо того что он поучителен сам по себе, особенно дсотавляет тон - "все виноваты кроме меня" (мем в тему - в комменте будет)
🔗 Вот сабж: https://x.com/lifeof_jer/status/2048103471019434248
История банальна. Клод (4.6!) в Курсоре (!) удалил том на котором был и staging, и production базы, И БЭКАПЫ в railway (!). Типа, там так принято. Рестор тома за 30 часов не случился.
В статье подробно расписано почему виноват:
* клод (но он извинился и покаялся)
* курсор
* railway
В результате слегка раком всал СааС чувака с платформой для аренды (машинки) - чего то восстанавливали по email подтверждениям, логам stripe, записям в календарях и прочее.. Весело, в общем людям было
▶️ Почитайте! Чтение весьма доставляет
👉 Я вот специально писать не буду чего думаю - отчего и почему. Прочитайте и сами скажите ваше мнение! Пишите в комменты чего думаете по описываемой ситуации.
👉 А я потом обзор мнения сообщества сделаю, ну и свое мнение присовокуплю)) Кмк, так мы хоть какую то пользу извлечем из очередного забега по граблям. Так сказать, разбор полетов / срез мнений.
@deksden_notes
Не могу не написать про этот шикарный случай. Помимо того что он поучителен сам по себе, особенно дсотавляет тон - "все виноваты кроме меня" (мем в тему - в комменте будет)
🔗 Вот сабж: https://x.com/lifeof_jer/status/2048103471019434248
История банальна. Клод (4.6!) в Курсоре (!) удалил том на котором был и staging, и production базы, И БЭКАПЫ в railway (!). Типа, там так принято. Рестор тома за 30 часов не случился.
В статье подробно расписано почему виноват:
* клод (но он извинился и покаялся)
* курсор
* railway
В результате слегка раком всал СааС чувака с платформой для аренды (машинки) - чего то восстанавливали по email подтверждениям, логам stripe, записям в календарях и прочее.. Весело, в общем людям было
▶️ Почитайте! Чтение весьма доставляет
👉 Я вот специально писать не буду чего думаю - отчего и почему. Прочитайте и сами скажите ваше мнение! Пишите в комменты чего думаете по описываемой ситуации.
👉 А я потом обзор мнения сообщества сделаю, ну и свое мнение присовокуплю)) Кмк, так мы хоть какую то пользу извлечем из очередного забега по граблям. Так сказать, разбор полетов / срез мнений.
@deksden_notes
🤣14🤗1
⚪️ Отчет Яндекса за 1 квартал
Просто скажу что у меня потребление в месяц около 50B токенов, и это я облачный оркестратор не доделал. В квартал 150-160B выходит
Странно что это превышает потребление Яндекса
Либо я что то не так понял
Либо это о чем то говорит про ситуацию с ИИ в РФ
@deksden_notes
Просто скажу что у меня потребление в месяц около 50B токенов, и это я облачный оркестратор не доделал. В квартал 150-160B выходит
Странно что это превышает потребление Яндекса
Либо я что то не так понял
Либо это о чем то говорит про ситуацию с ИИ в РФ
@deksden_notes
😁38
⚪️ Доступность моделей Claude
Две новости рядом. Гитхаб Копилот переходит на usage based модель с ростом коэффициентов на опус в 27 раз. Напомню, что Антропиков Microsoft не хостит, а перепродает.
А Антропики тихонько убирают Опус из Про подписки (как это было когда то, если кто помнит). Или это очередной A/B тест со стороны антропиков и все уберут и поправят?
В общем, как то не особо открыто и клиентооринтирвоано выглядит у Клода все.
На этом фоне очередной ресет лимитов Кодекса выглядит попыткой позабивать гвоздиков в некие крышки. Причина - ну просто хорошая неделя))
ИИ зима близко?) Или все таки надо было ориентироваться на оптимистичный сценарий при планировании мощностей, а не на консервативный? (не даром же все эти гигаватные сделки антропиков с амазоном и гуглом по получению мощностей)
——
Upd 1️⃣ : Антропики отписались что это старая статья до выхода опуса 4.5, и неактуально.
@deksden_notes
Две новости рядом. Гитхаб Копилот переходит на usage based модель с ростом коэффициентов на опус в 27 раз. Напомню, что Антропиков Microsoft не хостит, а перепродает.
А Антропики тихонько убирают Опус из Про подписки (как это было когда то, если кто помнит). Или это очередной A/B тест со стороны антропиков и все уберут и поправят?
В общем, как то не особо открыто и клиентооринтирвоано выглядит у Клода все.
На этом фоне очередной ресет лимитов Кодекса выглядит попыткой позабивать гвоздиков в некие крышки. Причина - ну просто хорошая неделя))
ИИ зима близко?) Или все таки надо было ориентироваться на оптимистичный сценарий при планировании мощностей, а не на консервативный? (не даром же все эти гигаватные сделки антропиков с амазоном и гуглом по получению мощностей)
——
Upd 1️⃣ : Антропики отписались что это старая статья до выхода опуса 4.5, и неактуально.
@deksden_notes
👍7😁3
⚪️ Codex Limit Reset
В чате мы уже обсудили, но и канал порадую - ресет лимитов Кодекса.
Причина забавная, да) Великий повод
Клозеды, конечно, во все лопатки переманивают к себе. Лишь бы мощностей хватило! Не хочется как у антропиков сейчас - эти закручивания гаек, вот это всё..
(ц) ... пляшем дельше!
@deksden_notes
В чате мы уже обсудили, но и канал порадую - ресет лимитов Кодекса.
Причина забавная, да) Великий повод
Клозеды, конечно, во все лопатки переманивают к себе. Лишь бы мощностей хватило! Не хочется как у антропиков сейчас - эти закручивания гаек, вот это всё..
(ц) ... пляшем дельше!
@deksden_notes
❤13👍9😁5
⚪️ Tencent Cloud - сервачок на год за $10
Если вам нужен, ну - мало ли под какие цели серверок в облаке, то сейчас даю первый сервер за $10 в год. Не сильно жирный, но цена!
Для агента, квн, мало ли ...
Обратите внимание, трафика всего 0.5T в месяц, но $10 в год - все равно интересная сделка, как мне показалось
Ссылочка (там кстати разные акции есть):
🔗 https://www.tencentcloud.com/act/pro/lighthouse
——
Upd 1️⃣: да, облако китайское, но деплоить можно в ДЦ по миру - 9 регионов, карта в комментах.
@deksden_notes
Если вам нужен, ну - мало ли под какие цели серверок в облаке, то сейчас даю первый сервер за $10 в год. Не сильно жирный, но цена!
Для агента, квн, мало ли ...
Обратите внимание, трафика всего 0.5T в месяц, но $10 в год - все равно интересная сделка, как мне показалось
Ссылочка (там кстати разные акции есть):
🔗 https://www.tencentcloud.com/act/pro/lighthouse
——
Upd 1️⃣: да, облако китайское, но деплоить можно в ДЦ по миру - 9 регионов, карта в комментах.
@deksden_notes
🔥15❤8👍4🙏1
⚪️ Warp отдали в Open Source (!!!)
Omfg. Неожиданно. Это тот самый терминал, который стал агентной средой!
🔗 Репо: https://github.com/warpdotdev/warp
🔗 Roadmap: https://github.com/warpdotdev/warp/issues/9233
🔗 Анонс в X: https://x.com/warpdotdev/status/2049153766977421444
🔗 Оффсайт: https://www.warp.dev/
Сильный ход)) Посмотрим чего из этого выйдет.
@deksden_notes
Omfg. Неожиданно. Это тот самый терминал, который стал агентной средой!
🔗 Репо: https://github.com/warpdotdev/warp
🔗 Roadmap: https://github.com/warpdotdev/warp/issues/9233
🔗 Анонс в X: https://x.com/warpdotdev/status/2049153766977421444
🔗 Оффсайт: https://www.warp.dev/
Сильный ход)) Посмотрим чего из этого выйдет.
@deksden_notes
🔥23👍3🕊2
⚪️ ShipOS
Новость собственно такая:
🔗 Новость: https://t.me/UAVDEV/11189
Да, ВПК, оборонка, милитари, все дела, - но я тут про другое.
Тут я хотел подсветить такой аспект - цель внедрения была не "заменить людей" даже, а исправить недостатки людей так, чтобы это работало НАМНОГО лучше и быстрее. Текущая система планирования "на людях" справлялась за 160 часов. Агенты делают за 10 минут.
Забавно что цель верхнего уровня - ДОГНАТЬ Китай, и ИИ как инструмент.
А вы говорите - "не скоро заменят"! Я думаю технология УЖЕ готова к огромному количеству применений, дело во внедрении и осознании. УЖЕ можно делать очень многие процессы.
А ведь ИИ развивается...
В общем, надо бы уже смотреть на ситуацию с разных углов. Фактическая жизнь уже поменялась, просто не все и не полностью это поняли.
Можно ждать, когда новая реальность "протает" в нашу жизнь, а можно вливаться в ее формирование
(ц) философское - в интересное время живем!
@deksden_notes
Новость собственно такая:
🔗 Новость: https://t.me/UAVDEV/11189
Да, ВПК, оборонка, милитари, все дела, - но я тут про другое.
Тут я хотел подсветить такой аспект - цель внедрения была не "заменить людей" даже, а исправить недостатки людей так, чтобы это работало НАМНОГО лучше и быстрее. Текущая система планирования "на людях" справлялась за 160 часов. Агенты делают за 10 минут.
Забавно что цель верхнего уровня - ДОГНАТЬ Китай, и ИИ как инструмент.
А вы говорите - "не скоро заменят"! Я думаю технология УЖЕ готова к огромному количеству применений, дело во внедрении и осознании. УЖЕ можно делать очень многие процессы.
А ведь ИИ развивается...
В общем, надо бы уже смотреть на ситуацию с разных углов. Фактическая жизнь уже поменялась, просто не все и не полностью это поняли.
Можно ждать, когда новая реальность "протает" в нашу жизнь, а можно вливаться в ее формирование
(ц) философское - в интересное время живем!
@deksden_notes
👍11
⚪️ Codex++
Твикер для Codex app: местами может быть полезен
🔗 Репо: https://github.com/b-nnett/codex-plusplus
Архитектура слегка хитрая - он грузит лоадер, который грузит каталог твиков.
Там щас баг при установке, поэтому вкратце ставить так: пускаем codex cli, даем ему промпт
он через пару минут поставит
Ну - твики в UI можно вкорячивать, и пара есть в комплекте. Для UI и для горячих клавиш
@deksden_notes
Твикер для Codex app: местами может быть полезен
🔗 Репо: https://github.com/b-nnett/codex-plusplus
Архитектура слегка хитрая - он грузит лоадер, который грузит каталог твиков.
Там щас баг при установке, поэтому вкратце ставить так: пускаем codex cli, даем ему промпт
поставь curl -fsSL https://raw.githubusercontent.com/b-nnett/codex-plusplus/main/install.sh | bash
он через пару минут поставит
Ну - твики в UI можно вкорячивать, и пара есть в комплекте. Для UI и для горячих клавиш
@deksden_notes
👍6
⚪️ Комплимент Codex
Я не приверженец брендов, компаний или продуктов. Видимо, низкая лояльность. Я приверженец функций, действий и поступков. Как говорится, критерий истины - практика.
В этом разрезе не могу не отметить одну штуку, которую подсветил чел в твиттере, и про которую я знал, - но еще раз хотел бы похвалить.
Когда агент кодекса работает, и встречает лимит - он доделывает свой текущих ход (жаль что субагенты в лимит упираются, но это же новые сессии технически). Но текущая основная сессия агента тянется до завершения его текущей задачи. И вот уже после завершенного хода он покажет плашку исчерпания лимита. (Компакт серверный от тоже не может сделать при лимите, к слову).
Но текущее задание во многих случаях доделывается.
Это крутой режим в дизайне, и сильно снижает раздражение при упирании в лимит. Tibo подтвердил что это осознанный подход в дизайне фичи, а не какое то техническое ограничение. Они могли сделать так, чтобы экономить токены, но сделали так, чтобы экономить нервы пользователям. Побольше бы таких решений в продуктах! Респект Кодексовцам за такие мелкие детали.
@deksden_notes
Я не приверженец брендов, компаний или продуктов. Видимо, низкая лояльность. Я приверженец функций, действий и поступков. Как говорится, критерий истины - практика.
В этом разрезе не могу не отметить одну штуку, которую подсветил чел в твиттере, и про которую я знал, - но еще раз хотел бы похвалить.
Когда агент кодекса работает, и встречает лимит - он доделывает свой текущих ход (жаль что субагенты в лимит упираются, но это же новые сессии технически). Но текущая основная сессия агента тянется до завершения его текущей задачи. И вот уже после завершенного хода он покажет плашку исчерпания лимита. (Компакт серверный от тоже не может сделать при лимите, к слову).
Но текущее задание во многих случаях доделывается.
Это крутой режим в дизайне, и сильно снижает раздражение при упирании в лимит. Tibo подтвердил что это осознанный подход в дизайне фичи, а не какое то техническое ограничение. Они могли сделать так, чтобы экономить токены, но сделали так, чтобы экономить нервы пользователям. Побольше бы таких решений в продуктах! Респект Кодексовцам за такие мелкие детали.
@deksden_notes
🔥59💯20❤11👌1
⚪️ Cursor SDK
Я пишу об этом только чтобы сказать: ура! Теперь вы сможете стереть свой прод из своего скрипта!))
@deksden_notes
Я пишу об этом только чтобы сказать: ура! Теперь вы сможете стереть свой прод из своего скрипта!))
@deksden_notes
😁17🤣10
⚪️ Railway ответил козакам
В общем, тема стёртого прода не отпускает - вот уже провайдер отвечает на ситуацию. Эндпоинты отказались легаси,и вообще были уволены 2 недели назад!
В общем, довольно подробно описывается как можно добавить гардов в окружение рельсопутей.
Если вы пользуетесь их сервисом - стоит прочитать. Для остальных скажу что они там журналирвоание операций сделали, типа можно откатывать многое - ну и про бехкапы пояснили.
В общем, щас стереть прод стало посложнее. Даже интересно, как в следующий раз изощренный Клод будет выкручиваться! Впрочем, они уже готовятся - Мифос нам обещан очень крутым. Видимо в следующий раз при просроченном токене он нам взломает и сотрет провайдера.
🔗 Чтение тут: https://x.com/Railway/status/2049492089197469891
@deksden_notes
В общем, тема стёртого прода не отпускает - вот уже провайдер отвечает на ситуацию. Эндпоинты отказались легаси,
В общем, довольно подробно описывается как можно добавить гардов в окружение рельсопутей.
Если вы пользуетесь их сервисом - стоит прочитать. Для остальных скажу что они там журналирвоание операций сделали, типа можно откатывать многое - ну и про бехкапы пояснили.
В общем, щас стереть прод стало посложнее. Даже интересно, как в следующий раз изощренный Клод будет выкручиваться! Впрочем, они уже готовятся - Мифос нам обещан очень крутым. Видимо в следующий раз при просроченном токене он нам взломает и сотрет провайдера.
🔗 Чтение тут: https://x.com/Railway/status/2049492089197469891
@deksden_notes
😁17👍5🔥3❤1
⚪️ Затраты на облака
Облачные провайдеры не особо дешевые
Петя с крабоботом стараются - это запуски облачных быстрых github actions на https://www.blacksmith.sh/
$511k - неплохо. по 13 центов на экшн, к слову вышло.
Не проще ли локально гонять такое?
@deksden_notes
Облачные провайдеры не особо дешевые
Петя с крабоботом стараются - это запуски облачных быстрых github actions на https://www.blacksmith.sh/
$511k - неплохо. по 13 центов на экшн, к слову вышло.
Не проще ли локально гонять такое?
@deksden_notes
⚪️ Удобная фишка от Vercel Portless с Tailscale
Можно шарить локальные сервера с tailnet
А можно - и с публичным интернетом!
Выглядит удобно
🔗 Репка тут: https://github.com/vercel-labs/portless
🔗 Оффсайт про portless: https://portless.sh/
@deksden_notes
Можно шарить локальные сервера с tailnet
А можно - и с публичным интернетом!
Выглядит удобно
🔗 Репка тут: https://github.com/vercel-labs/portless
🔗 Оффсайт про portless: https://portless.sh/
@deksden_notes
👍4❤2
⚪️ Киты уделывают французов
Свежий мистраль снова - неплох, но второй эшелон. Интересно, что регулярно отстает уже от всех китайцев.
И интересно что в Европе ничего особо заметного больше не припоминаю!
Ладно у нас - санкции там, GPU с проблемами доставать! Ну и деньги понятно куда уходят..
А Европа то как ИИ с полимерами всеми определила? Что бюрократия чудодейственная делает! Ну ничего. Щас ИИ декрет примут, и обяжут экологичный диверсити ИИ только использвоать.
@deksden_notes
Свежий мистраль снова - неплох, но второй эшелон. Интересно, что регулярно отстает уже от всех китайцев.
И интересно что в Европе ничего особо заметного больше не припоминаю!
Ладно у нас - санкции там, GPU с проблемами доставать! Ну и деньги понятно куда уходят..
А Европа то как ИИ с полимерами всеми определила? Что бюрократия чудодейственная делает! Ну ничего. Щас ИИ декрет примут, и обяжут экологичный диверсити ИИ только использвоать.
@deksden_notes
😁20❤2👍2🤔1
⚪️ Codex - /goal
Одно время мы привыкли к релизам кодекса через день. Но нынче релиз задержался, зато в нем приземлились несколько достойных фич.
Одна из них - фича /goal в CLI. Включается в features в вашем config.toml установкой флага
Это такой ральф цикл, но встроенный в кодекс. Кодекс работает пока не будет достигнута цель, несколько ходов. Интересно потестить. Оч полезно будет, если действительно будет адекватно работать!
В app нету, только CLI.
(ц) go, go тестить, они создали!
@deksden_notes
Одно время мы привыкли к релизам кодекса через день. Но нынче релиз задержался, зато в нем приземлились несколько достойных фич.
Одна из них - фича /goal в CLI. Включается в features в вашем config.toml установкой флага
goals=true. Да. Команда /goal, но флаг goalS, обратите внимание. Это такой ральф цикл, но встроенный в кодекс. Кодекс работает пока не будет достигнута цель, несколько ходов. Интересно потестить. Оч полезно будет, если действительно будет адекватно работать!
В app нету, только CLI.
(ц) go, go тестить, они создали!
@deksden_notes
👍14❤🔥8🔥3
⚪️ Goal под капотом Codex
Это одна из тех фич, ради которой я оркестратор свой делал - чтобы можно было доделывать длинные задачи. Круто что щас в стандартных упряжках появляется кое что нужное.
Поэтому я решил таки разобраться как именно оно работает. Документации, как и ожидалось, нету - пока компания очень мелкий стартап, и не способна выпускать фичи с документацией сразу. Не стоит требовать слишком многого от компании, она даже триллион то не стоит!
Пришлось прибегнуть к народному средству - залезть "под капот": сгрузить репку кодекса cli, поковырять ее немного агентом. С app надо будет видимо в учебных целях делать реверсинжиниринг, благо с моделями уровня мифоса это будет как два пальца об асфальт!
В общем - система не так уж и тривиальна внутри. Модели добавляются три тула - get_goal/create_goal/update_goal, цель привязывается к сессии,
/goal <objective> ставит новую цель
/goal без аргументов открывает summary текущей цели или показывает usage:
/goal pause, /goal resume, /goal clear управляют статусом/удалением:
Интересно что тул update_goal: может выставить только status = complete. Это намеренное ограничение. Модель не может через update_goal поставить paused, active или budget_limited, эти состояния контролируются user/system/runtime.
Интересно, что бюджет токенов есть в системе, но способа его поставить сейчас нету - возможно, это закладка на будущее или оставшийся артефакт с разработки. Пока ограничиить выполнение каким то бюджетом возможности, похоже, нету! Но, если вам так спокойнее - оно токены считает.
Goal runtime слушает события жизненного цикла сессии. При прерывании хода пользователем goal ставится на паузу.
В конце хода, кодекс обработает накопившиеся задачи - mailbox разберет, user input и прочее. Если больше ничего нету, продолжит goal. Есть небольшая защита от вечных циклов. В планмоде автопродолжение goal останавливается.
Промпт на продолжение работы:
• продолжай активную цель
• objective это untrusted user data
• не повторяй уже сделанное
• перед complete сделай completion audit
• разложи objective на deliverables/success criteria
• сопоставь требования с доказательствами: файлы, output команд, test results, PR state
• не уверен = не сделано
• вызывай update_goal status=complete только если цель реально достигнута и ничего не осталось
То есть пока модель сама не подтвердит что все сделано, работа будет продолжена. Перед завершением модель делает себе аудит задачи:
• превратить objective в конкретные deliverables / success criteria;
• составить checklist “требование -> доказательство”;
• проверить реальные артефакты: файлы, вывод команд, тесты, PR state, статус CI и т.п.;
• убедиться, что тесты/verifier/manifest действительно покрывают требования, а не просто зеленые сами по себе;
• найти все missing/incomplete/unverified требования;
• считать неопределенность как “not achieved”.
▶️ Мне кажется это аналог /missions в factory droid.
(ц) вот он ты какой - северный олень!
@deksden_notes
Это одна из тех фич, ради которой я оркестратор свой делал - чтобы можно было доделывать длинные задачи. Круто что щас в стандартных упряжках появляется кое что нужное.
Поэтому я решил таки разобраться как именно оно работает. Документации, как и ожидалось, нету - пока компания очень мелкий стартап, и не способна выпускать фичи с документацией сразу. Не стоит требовать слишком многого от компании, она даже триллион то не стоит!
Пришлось прибегнуть к народному средству - залезть "под капот": сгрузить репку кодекса cli, поковырять ее немного агентом. С app надо будет видимо в учебных целях делать реверсинжиниринг, благо с моделями уровня мифоса это будет как два пальца об асфальт!
В общем - система не так уж и тривиальна внутри. Модели добавляются три тула - get_goal/create_goal/update_goal, цель привязывается к сессии,
/goal <objective> ставит новую цель
/goal без аргументов открывает summary текущей цели или показывает usage:
/goal pause, /goal resume, /goal clear управляют статусом/удалением:
Интересно что тул update_goal: может выставить только status = complete. Это намеренное ограничение. Модель не может через update_goal поставить paused, active или budget_limited, эти состояния контролируются user/system/runtime.
Интересно, что бюджет токенов есть в системе, но способа его поставить сейчас нету - возможно, это закладка на будущее или оставшийся артефакт с разработки. Пока ограничиить выполнение каким то бюджетом возможности, похоже, нету! Но, если вам так спокойнее - оно токены считает.
Goal runtime слушает события жизненного цикла сессии. При прерывании хода пользователем goal ставится на паузу.
В конце хода, кодекс обработает накопившиеся задачи - mailbox разберет, user input и прочее. Если больше ничего нету, продолжит goal. Есть небольшая защита от вечных циклов. В планмоде автопродолжение goal останавливается.
Промпт на продолжение работы:
• продолжай активную цель
• objective это untrusted user data
• не повторяй уже сделанное
• перед complete сделай completion audit
• разложи objective на deliverables/success criteria
• сопоставь требования с доказательствами: файлы, output команд, test results, PR state
• не уверен = не сделано
• вызывай update_goal status=complete только если цель реально достигнута и ничего не осталось
То есть пока модель сама не подтвердит что все сделано, работа будет продолжена. Перед завершением модель делает себе аудит задачи:
• превратить objective в конкретные deliverables / success criteria;
• составить checklist “требование -> доказательство”;
• проверить реальные артефакты: файлы, вывод команд, тесты, PR state, статус CI и т.п.;
• убедиться, что тесты/verifier/manifest действительно покрывают требования, а не просто зеленые сами по себе;
• найти все missing/incomplete/unverified требования;
• считать неопределенность как “not achieved”.
▶️ Мне кажется это аналог /missions в factory droid.
(ц) вот он ты какой - северный олень!
@deksden_notes
🔥21👍16❤4🫡4
⚪️ Qoder сделал доступным BYOK на бесплатном плане
В qoder была возможность встраивать свои подписки. Но теперь эта возможность доступна даже на бесплатном плане - ранее нудно было иметь хоть какой то платный план, чтобы подключить внешний кодинговый план.
А теперь qoder можно пользовать как упряжку для любого мейнстримового китового плана - z.ai, Kimi, Minimax поддерживают.
Ну - хорошая новость! Контекстный движок у qoder неплохой и repowiki полезный.
@deksden_notes
В qoder была возможность встраивать свои подписки. Но теперь эта возможность доступна даже на бесплатном плане - ранее нудно было иметь хоть какой то платный план, чтобы подключить внешний кодинговый план.
А теперь qoder можно пользовать как упряжку для любого мейнстримового китового плана - z.ai, Kimi, Minimax поддерживают.
Ну - хорошая новость! Контекстный движок у qoder неплохой и repowiki полезный.
@deksden_notes
👍16❤3👀1