DEKSDEN notes
952 subscribers
155 photos
2 videos
1 file
269 links
Канал с моими заметками на разные темы
Vibe Coding -> AI SWE, AI Coding Tools, Agents: Claude Code, Codex, news, links
Чат (!!!): https://t.me/+B1fB3sZbaVthMDhi
Download Telegram
🔥 ЗАЙку не бросила хозяйка!

Не так давно я упоминал про тест GLM с Coding Plan:

https://t.me/deksden_notes/87
https://t.me/deksden_notes/111

Нынче, сразу за Соннетом 4.5 появился доработанный GLM-4.6!

https://docs.z.ai/guides/llm/glm-4.6

Есть даже тесты в сравнении с соннетом 4.5 - что очень необычно: он же вышел буквально вчера. Вот это оперативность! Поспешили)) Даже видно как статейку на сайте через search/replace готовили - там соннет иногда упоминается как 4.6)) но все равно приятно, молодцы.

Что 🆕 нового:

- контекст 200к! 🔥
- доработали кодинг в общем, и фронт в частности;
- сильнее рассуждения и агентность
- лучше работает с текстом и держит стиль

Бенчи по ссылке на картинках, там все немного лучше!

Респект китайцам. Обновляем env переменную в настройках СС))

#post
@deksden_notes
🔥8👍1
▶️ Кодекс Cli и Gpt-5-Codex-high, приёмчики


Работа с Кодексом может давать иллюзию что модель сильно умнее и особенно "париться" с ней не стоит. Когда агент по 40 минут работает и делает что то серьёзное - это впечатляет. 🔥

Однако особенно расслабляться пока рано: кодекс не волшебный. Да, он тоже может упустить что то при работе, не доделать. Да, с роcтом сложности задачи возникают все те же самые проблемы.

🟢 Напомню - что рецепт один, актуален и для СС, и для Кодекса, да и для любого агента:
- готовим грамотный контекст
- правильно нарезаем задачу
- следим за выполнением и переполнением контекста
- используем steering техники

👉 Как это все выглядит в переложении на Кодекс?

1) подготовка контекста: начинаем задачу с "чистого листа" - новый чат /new; у нас есть меморибанк по проекту, поэтому просим агента "подготовится к обсуждению (... тема нашего рефакторинга), прочитать меморибанк, создать необходимый контекст для осбуждения темы";

я сделал типовой промпт (так называются кастомные слеш команды в кодексе) на эту тему - про проект: чтобы агент прочитал меморибанк проекта, изучил код системы, и прочие необхоидмые файлы.

при выполнении агент читает документацию, смотрит файлы кода - уходит до 25-30% контекста на это (очевидно, зависит от размеров проекта);

2) после начинаем обсуждать тематику рефакторинга - я набрасываю тему и прошу его изучить задачу, изучить код, документацию, тесты, провести анализ, подумать и предложить варианты решения задачи, и возвращаться с отчётом для обсуждения;

3) при обсуждении несколько раз просим максимально интегрировать решение в систему, DRY, TRIZ, использовать имеющийся код максимально, следовать лучшим паттернам и подходам, делать грамотную архитектуру и отличный DX, обходиться без усложнений и оверинжиниринга, но делать полнофункциональное элегантное решение, соблюдать баланс простоты и функциональности, делать надёжно;

4) не забываем при планировании - планировать обновление меморибанка;

5) когда обсудили план работ - пишем файл с планом в папку '.protocols/' под очередным номером: прописываем что делаем, где, как именно, на что обращать внимание, каким стандартам следовать, чему соответствует реализация, каким требованиям и где описана в документации, и прочие полезные при реализации детали;

пропишите: написать такой файл плана, чтобы можно было сделать этот план без доступа к контексту обсуждения, включить в план все сведения для его воплощения.

6) после формирования плана оцените, сколько осталось контекста - если немного, лучше сделать /compact, прочитать план снова и просить подготовить контекст заново, и только потом стартовать план на выполнение;

7) при выполнении обязательно просим помечать в плане прогресс; когда останавливается агент - тоже просим отмечать прогресс в плане;

😍 если подошли к заполнению контекста и агент остановился - просим прописать прогресс и делаем /compact с дальнейшим чтением плана и просьбой восстановить контекст; продолжаем когда он прочитал себе в контекст что нужно;

9) при завершении - обязательно просим верифицировать полноту выполнения плана

▶️ Итог: вы можете делать рефакторинги на 1.5 часа в 2-3 контекста с нормальным качеством! Может быть количество доделываемых пунктов вас немного удивит))

🤟

#post
@deksden_notes
🔥13👍41
▶️ Codex :: cloud tasks


Интересно! cli будет интерфейсом к облачному кодексу и будет им рулить?

https://github.com/openai/codex/pull/3197

Любопытно ///


🆕 Upd: параметры в промпты (у кодекса так зовут кастомные слеш команды) тоже завозят - https://github.com/openai/codex/pull/4470


#post
@deksden_notes
❤‍🔥4👍1
▶️Codex :: SDK

Не Claude Agents / Code SDK единым! У кодекса тоже будет SDK. Уже готовят.

Можно почитать readme тут:

https://github.com/openai/codex/pull/4513/files#diff-9be9f99d130daf9a9aea3153e83306403823122bffa83285f1545b5048f04dda

хорошие новости, будем встраивать)

#post
@deksden_notes
🔥5👍4
♊️Gemini Cli :: Agents


Команда Gemini Cli работает над созданием своей системы агентов:

https://github.com/google-gemini/gemini-cli/pull/9778

Живьём пока вроде бы такого не видно, но "под капотом" работа идет. Даже модель с контекстом 1m токенов "сломалась" на эту тему.

Интересно - сколько будет держаться Кодекс?) Gemini делает, Qwen сделал ...

#post
@deksden_notes
1👍4🔥3
Google Jules :: обновки конца сентября

Не CLI единым - развиваетс все, и довольно бодро. У Жульеса тоже куча обновок:

- общается в комментариях к PR
- файловый @ селектор в чате
- ПАМЯТЬ: агент выделяет какие то заметки про репо и сохраняет их на будущее; довольно просто - но мы только начали;
- ENV - наконец то можно "официальным" способом давать переменные окружения на уровне репозитория, для фонового агента это BIG; управляемая выдача переменных таскам;

Смотрим и читаем про сабж тут:

https://jules.google/docs/changelog/

#post
@deksden_notes
👍6🔥2
Google Jules :: теперь CLI!


В полку консольных агентов прибыло - откуда не ждали! )) Жульес теперь в терминале - omfg:

https://developers.googleblog.com/en/meet-jules-tools-a-command-line-companion-for-googles-async-coding-agent/

https://x.com/julesagent/status/1973812188977508755


вот о каких больших новостях говорили в твиттере! вот так вариант апи - о котором просили )))

Это будем посмотреть!
5👍3🔥1
Codex Web :: лимиты с 2025-10-20

➡️ К сведению: халява то не вечная ))

Beginning October 20, Codex Cloud tasks will count toward your Codex usage.

https://developers.openai.com/codex/changelog

Codex Web == Codex Cloud видимо, так его клозеды прозвали
Codex SDK


Клозеды выпустили Codex SDK, которым можно рулить кодексом программно. Пакет пока только TS, версии для питона нету. Сделан пакет аналогично Claude Agents SDK (ex Claude Code SDK): обёртка над cli, которая запускает codex cli и парсит вывод.

Видимо, если вы залогинены в codex через аккаунт, то подписку можно использовать и в SDK - надо будет проверить.

Стримить работу агента умеет.

Из необычного: поддерживает structured output, почти как вызов модели, только тут - вызов агента. Детали в readme.

Дока скромная, больше чем readme и пара строк на оффсайте ничего особо не расписано.

Репо тут: https://github.com/openai/codex/tree/main/sdk/typescript

Дока: https://developers.openai.com/codex/sdk (не зачитайтесь!)


Upd: github action они выпустили тоже, но оно требует API_KEY! Это ж изрядно дорого получится по апи, поэтому ждём-с когда прикрутят подписку к action.
👍4🔥2
Google :: Подписки AI Pro / Ultra получают Gemini Cli / Code Assist


👉 Не все знают, оказывается. Напишу.

Гугл не так давно уравнял доступ rGemini Cli для подписчиков Code Assis Standard / Enterprise с подписчиками Google Ai Pro / Ultra. Теперь они одинаковые в лимитах для своего уровня, то есть Pro как Standard, Ultra как Enterprise.

🟢 В итоге у подписчиков Ai Pro получается 120 RPM, и 1500 RPD к Gemini 2.5 pro в Gemini Cli, что довольно много. Обратите внимание - это в СУТКИ, не в месяц (привет курсорам/варпам).

🟢 Повышенные лимиты на Jules у подписчиков Ai Pro довольно давно.


Вьетнамские подписки с платимаркета за 1000р на полгода на ai pro стали ещё выгоднее ))


🔗 https://blog.google/technology/developers/gemini-cli-code-assist-higher-limits/


#post
@deksden_notes
1👍42🔥2
Codex :: compact


⚠️ Свежий релиз кодекса сломал компакт. Модель доходит до границы контекстного окна, выдаёт новое красненькое сообщение об исчерпании конекста, но команда /compact не срабатывает.

https://github.com/openai/codex/issues/4813

➡️ Если Вы не пользуетесь file-based protocols, в которые модель кидает прогресс и контекст по мере выполнения работы, то это загубит сессию.

🟢 Меня такое не сильно парит, у меня "все ходы записаны!". Я в таком случае начинаю новый чат, выставляю yolo, делаю прайминговый промпт на меморибанк, и гружу файл протокола. после этого модель начинает с последней задачи из протокола.

Может кто то знает как спасти сессию в такой ситуации? Но мне пока нравится подход с планами в файле протокола.


#post
@deksden_notes
🔥3👍1
🧩 Claude Code Plugins


🔥 Большой релиз у антропиков: 2.0.12. Да, номер невзрачный, но за ним - PLUGINS SYSTEM.

Это возможность добавлять упакованные в плагины: slash команды, субагентов, MCP сервера, хуки.

Добавляем маркетплейсы в систему - это просто git репо со специальным файлом. То есть чьи то коллекции добра для СС!

Большое дело, удобно! Надеюсь, станет неким стандартом. антропики круто двигают продукт, молодцы.

Щас бы модели не тупели, и лимиты бы поразумнее - и совсем было бы здорово!

🔗 Почитать блог: https://www.anthropic.com/news/claude-code-plugins

Почитать доку как делать плагины: https://docs.claude.com/en/docs/claude-code/plugins

Пример: https://www.aitmpl.com/plugins

▶️ Налетаем ))


(...) Upd:
Я, кстати, не понимаю - почему для создания таких штук антропики не подучили Claude Code грузить инструкцию и в чате с агентом создавать такие штуки? Плагин бы сделали для разработки плагинов - круто же/

Инициализировать там все, верифицировать и так далее. Можно же было подсуетиться, и показали бы другим как работать с технологией. Заодно все нюансы как правильно сделать агент бы учитывал "из коробки"



#post
@deksden_notes
🔥82👍1🥰1
Jules API :: не через cli, а "настоящий"

Очередные обновки жульеса: теперь у нас есть апи! Не просто cli, а полноценное api:

https://developers.google.com/jules/api

Похоже, Гугл настаивает, чтобы я думал как его интегрировать в работу.

#post
@deksden_notes
👍64
Knip :: полезен для AI-dev


Вы же пользуетесь статическим анализом? Для TypeScript есть весьма стандартный инструмент, который подсвечивает неиспользуемый в проекте код - knip.

https://knip.dev/
https://github.com/webpro-nl/knip


Такого рода инструменты очень полезны именно при ai разработке, когда агенты могут не убирать какой то код для "сохранения совместимости" или ещё по каким то своим туманным соображениям гуманизма, и постепенно в проекте могут копиться некоторые артефакты. Артефакты вредны, засоряют контекст, путают тех же агентов. В крайних случаях вы можете обнаружить себя в многочасовой отладке кода, который устарел и не используется вообще (поэтому и падают тесты с ним - он не актуален).

Штуками такого рода надо пользоваться аккуратно: ложные срабатывания у неё вполне вероятны и ожидаемы: инструмент без ai, анализирует проект механистически, зато полностью.

🟢 Что хорошо работает - это ИИ агент в связке с knip. Инструмент удобно запускать "из-под агента": тогда вы можете просить агента проанализировать вывод knip и дать заключение об адекватности отчёта. Агент с умной моделью типа кодекса вполне в состоянии понять, что публичное api сервисов - это не "лишний экспорт" и может добавить полезные исключения. И в целом проверить выдачу knip на адекватность. Например, подтвердить что часть файлов действительно устарела и не используется. Заодно по итогам он вам эти файлы и уберёт!

‼️ Ещё раз: commit перед сеансом работы с knip обязателен. Пропишите это правило для ИИ агента тоже: чистый git. Эта штука советует УДАЛЕНИЕ кода - операция по определению деструктивная, пользоваться надо аккуратно и желательно понимать что ты делаешь. Лучший рецепт: сохраняйте копии ДО процедуры. Обязательно все проверяйте ПОСЛЕ.

👉 Из полезного: позволяет вычистить накопленные артефакты после многих итераций разработки. Не знаю насколько для человеческой разработки актуально (от команды, наверное, зависит) - но как без подобных инструментов в ai swe я даже не знаю!

В общем, полезная штука, кмк.

А вы чем ещё пользуетесь?

#post
@deksden_notes
👍8🔥52
ReasoningBank от Гугла


Я не мог пройти мимо упоминания "... -банк" Гуглом! ))

🔗 https://t.me/data_secrets/8016

Ну и я бы не сказал, что такого нкто не делал. В том же qoder есть извлечение lessons learned из чатов с ИИ.

Наверное, фишка в системности этого подхода! Надо подумать над этим.


#post
@deksden_notes
🔥5👍2😁1
Схема "критик"


▶️ Пользуетесь ли вы схемой "критик"? Крайне полезная и результативная схема. Суть простая: сделанная работа ревьюится агентом. Работа может быть как планом, так и выполненной работой (рефакторингом, реализацией новой фичи).

Вроде бы элементарно! Но это реально рабоатет и приносит свои результаты. Особенно эффективно если критик - это отдельная задача с отдельным контекстом: так минимизируется bias к сделанной работе. Можно, конечно (и нужно) добавлять шаг "верификация" к сделанной работе, но в кодексе он будет исполняться в том же контексте, что снижает качество.

🟢 Попробуйте!

У меня система регулярно что то или доучитывает в плане, или допланирует. Промпты - стандартные, типовые. Планы сохраняем в md файлы, ими и обмениваемся между агентами.

Интересна вариация схемы: когда один агент производит ревью архитектуры и "косяков" в системе, находит недостатки. Потом другим агентом планируем и устраняем недостатки - а потом "автор" оригинального ревью системы смотрит и даёт заключение про качество исправления выявленных недостатков! Весьма много доработок случается.

🔥 общем, всячески рекомендую. Современные модели дают наибольшее качество в мультиагентных системах, где рефлексия и мультисемплинг пока дают реальный рост результатов. Видимо, до agi так и будм на этих паттернах выезжать


#post
@deksden_notes
1👍9🔥3💯3
Мультисемплинг


▶️ А мультисемплингом пользуетесь? Полезная штука. Этот англицизм (куда же мы без них в отрасли то!) - он про множественные генерации при одинаковом контексте/задаче. Мы генерируем несколько вариантов.

🟢 Рассказываю свой эксперимент: пока у меня есть время - прогоняются тестовые воркфлоу под наблюдением агентов по сценариям (тестирование "под надзором" - agent suprevised testing - что весьма долго, по 20 минут на прогон тестового воркфлоу. В общем, решил причесать архитектуру системы в поисках косячков. Развлекаюсь так периодически! В библиотеке промптов обсидиана лежит заготовленный промпт для анализа, и как раз тут Гемини cli с подпиской тусит во вкладке - неприкаянный!

В общем, решил прогнать "архитектурка-чек". Запраймил гемини индексом меморибанка, и кинул промпт анализа. Потом подумалось что самое время провести эксперимент. Сделал ещё 2 вкладки с гемини, запустил ИДЕНТИЧНЫЕ промпты прайминга и потом - анализа.

➡️ Результаты, конечно, убивают ))

Первый агент написал как все прекрасно, в стиле гемини - "самая надёжная архитектура и тп". Пучок лещей для поглаживания ими ЧСВ мне не нужен, пропускаем.

Второй агент упёрся в основном в типобезопасность и докопался к проверкам типов в обработчиках. Ну ок - имеет место быть, можно обсудить.

Третий агент прошёлся по совершенно другим аспектам: взаимодействию с redis и "болтливостью с БД (когда несколько вызовов делаем), сложности некоторых обработчиков.

🟢 Итог: годный отчёт - компиляция трёх (вернее двух отчётов - первый бестолковый). Поэтому я очень хорошо понимаю, как топовыми режимами работы чата являются системы типа gpt PRO , которые "под капотом", по слухам, делают @5 мультисемплинг!

🤔 Что убивает то? Конечно то, что при ИДЕНТИЧНОМ контексте и запросе, просто за счёт температуры, можно абсолютно случайным образом получить либо хороший годный ответ, либо бестолковый.

Но получить ПОЛНОЦЕННЫЙ ответ за один ответ, видимо, - никак. При современных моделях, полноценный ответ - это или разбивка промпта на пучок задач для "роя" агентов, либо мультисемплинг генерация с оценкой полученного и синтезом итогового объединённого ответа.

Агенты могут работать СИЛЬНО лучше, просто это очень хлопотно их правильно на работу сорганизовать.

Так и живём ...

#post
@deksden_notes
🔥13👍5