DEKSDEN notes
2.64K subscribers
403 photos
7 videos
1 file
518 links
Мои заметки на разные темы, уровень - "для продолжающих")
Vibe Coding -> AI SWE, AI Coding Tools, Agents: Claude Code, Codex, news, links
Чат (!!!): https://t.me/+B1fB3sZbaVthMDhi

(с) 2025-2026, @deksden
Download Telegram
⚪️ Open Sessions от Марио (pi coding agent)

У Марио не так давно была мысль заделать какую то систему для сбора кодинговых сессий для возможности получить открытый датасет для работы с кодом. Чтобы не только у бигтехов была возможность тюнить на таких данных свои модели, но и у стартапов или обычных исследователей

Весьма духоподьемная тема.

🔗 Линк: https://x.com/badlogicgames/status/2040979640265633882?s=20
🔗 https://github.com/badlogic/pi-share-hf


Щас он запилил расширение для pi которое грузит такие сессии на HF как датасет, и, может быть, HF для этого сделает какую то более развитую поддержку.

Посмотрим что из этого выйдет! Хорошее же начинание. Ждемс аналогичных расширений для ведущих упряжек.

——

Upd 1️⃣ : HF поддерживают движ через traces.com

🔗 https://x.com/ClementDelangue/status/2041189872556269697

🔗 https://traces.com/


@deksden_notes
👍76
⚪️ Что такое Агент #post


Решил что обсуждение в одном из чатов действиельнл можно превратить в пост.

Тут давеча читал несколько источников (в основном твиттер со ссылками на блоги челов), где рассуждалось про harness, harness engineering и прочее околохайповое. Будем называть harness упряжкой, остальное вроде менее специфический сленг, и так понятно. В процессе родилась и оформилась следующая мысль

▶️ Для реальных применений текущая хайповая формула Агент = Модель + Упряжка недопустимо упрощена.

Упряжка - это набор тулов, и в целом "обвязка" модели. Тут все СС обсуждают, например - как наверное максимльно развитую на текущий момент упряжку.

Но на мой взгляд - нельзя забывать о других составляющих системы:
• прежде всего флоу - в рамках какого процесса работает Агент?
• система памяти: долговременная и сессионная как минимум; скиллы где то около, как память о процессах; контекст как кратковременная память у модели то всегда будет - но агентом без памяти не станешь;
• еще огромное количество подсистем у агента, без которых в реальной практике работать не сможем: расширения, mcp, авторизации, биллинг/подписки, учет токенов, система разрешений, система хуков, headless mode, иерархические конфиги (проект/глобальный), стиринг файлы, интерактивные возможности (та же очередь сообщений/стиринг модели в работе), свармы / субагенты, интеграции в каналы связи (телеграм), клиент/серверные возможности (appserver у кодекса например) ... - и это еще не все, я наверняка что то важное забыл!

Вывод: правильная схема как об этих вещах мыслить - это все таки Агент = Модель внутри Системы

👉 И у нас тут не столько agent / context / prompt engineering, а system design. И если мыслить сразу на системной уровне, с нужным количеством компонентов в расчете, с процессами, - так сразу интереснее получается!

▶️ На мой взгляд феномен успеха крабобота как самого успешного агента - это в том числе история выстраивания его как максимально наполненной и оформленной комплексной системы, которая лучше всего встраивалась в процессы, имеет интеграции, все критически нужные компоненты.

(ц) Как то так

Что думаете?

@deksden_notes
1🔥117👍7❤‍🔥2
⚪️ Codex Remote Setup - пример сетапа


Напишу про свой текущий сетап для работы с кодексом локально-удаленно. Тут выяснилось, что это не всем очевидно, что так можно и не сложно.

Сначала TLDR:
• кодекс запущен локально на ноуте, работает с проектами/данными с ноута
• можно подключиться к нему с телефона
• все в РФ

В общем, у кодекса есть appserver - считай, это сервер с ядром агента, все фичи codex cli. Когда мы запускаем просто cli, то он делает это сервер inproc.

🔗 https://developers.openai.com/codex/app-server

Мы же хотим выделенный сервер, и поэтому запускаем его локально примерно так:

>`codex app-server --listen ws://0.0.0.0:8395`

Локальный кодекс CLI запускаем так, чтобы он подключился к этому серверу:

>`codex --yolo —remote ws://127.0.0.1:8395`

Далее нам нужно чтобы был удаленный доступ к системе. Я юзаю Tailscale, чтобы не светить открытыми портами в интернет и не заморачиваться с секьюрити. У меня есть vps в америке, на ней раскатан клиент Tailscale и он назначен exit node для tailnet. То есть локальный ноут фактически выходит в инет через америку, что нам и надо для противодействия геоблокам кодекса.

С телефона подключаемся к tailscale. Используем приложение Kitty Litter (ios/android, у меня первое):

🔗 https://apps.apple.com/ru/app/kittylitter/id6759521788
KittyLitter
🔗 https://github.com/dnakov/litter

Удаленно подключиться с другого ноута можно только через codex cli. В desktop приложении ншел только тред про разработку remote connection. Обещают доделать, но пока нету

🔗 https://github.com/openai/codex/issues/10450

...

PROFIT!

#post
@deksden_notes
🔥218🤯1🕊1
⚪️ GLM 5.1


Зайки наконец то представили Glm-5.1, которая уже порядком времени доступна в кодинговом плане, но теперь у нас есть страничка описания

Там написано что она немного лучше opus, что, наверное, слишком сильный тейк.

🔗 Почитать: https://z.ai/blog/glm-5.1


В анонсе в Х поскромнее картинка (заглавная), и поадекватнее. Пожалуй она ближе к реальности - модель хорошая, но фронтир (пока ?) не побивает.

——
Upd 1️⃣ : значимым достижением выделяют увеличившуюся агентность и выносливость. Вместо 20 автономных шагов как было в конце того год, 5.1 нынче делает 1700! Показатель и вправду важный


(ц) энджой!

@deksden_notes
👍166
⚪️ Resend - уже в Emulate

Короткая новость - у Vercel есть прекрасный проект Emulate для эмуляции всякого стороннего сервиса, чтобы отлаживать. Там был Vercel (странно, да?), Github, Google, MS, AWS.

Так вот - теперь туда добавили Resend! Можно отлаживать!))

Ну и Stripe, Okta, MongoDB Atlas, ...


(ц) Не знаю кому как, а мне актуально

@deksden_notes
7🔥5👍2
⚪️ Политика коммитов


Как коммитите код в рамках своих флоу?

В конце выполнения полной задачи? Или если задача большая, то по каждому этапу?

А пуш? В конце этапа? Или когда нужно на сервере чтобы ci проверило код и сделать серверные тесты?

Есть какая то разумная политика? Кто какой логикой руководствуется?

▶️ Я думаю и делаю так.

Коммичу все субзадачи плана, если есть ясная граница задачи. То есть каждый оформленный шаг. Почему так? Чтобы последующие этапы/параллельные задачи не попортили выполненную работу. В свармах щас всякое бывает.

Пуш не делаю пока нету необходимости проверки на деплое (у меня пуш автоматом делает деплой по ci/cd).

Вроде норм, но хочется обсудить у кого какая логика.

@deksden_notes
10👍4
⚪️ Codex Limit Reset


Снова сбросили лимиты на Плюсах - Тим по традиции обделен) Я прям мигрирую свой пул аккаунтов на Плюсы, там и лимиты больше, и сбрасывают чаще!

(ц) не отвлекаемся, продолжаем вайбкодить!

@deksden_notes
🔥14👻2🕊1
Forwarded from эйай ньюз
OpenAI релизнули подписку ChatGPT Pro за $100

Он всё так же даёт доступ к GPT 5.4 Pro и прочим фичам Pro подписки (помните про ChatGPT Pulse?), но с меньшими лимитами на Codex. Пользователи нового Pro тира будут получать 5x использования Codex по сравнению с Plus, но до 31 мая действует акция, которая удваивает использование для всех Pro пользователей, то есть на почти два месяца лимиты в 10x больше чем у Plus.

@ai_newz
🔥15👍43
⚪️ Проект выходного дня - SaaS за викэнд


Решил провести небольшой эксперимент, собрать себе маленький домашний СааС за этот уикэнд. В общем, для доступа к ИИ мне нужен нормалный стабильный VPN КВН. Ну и в тележку еще писать, и твиттер смотреть, и ютуб.

▶️ Я давно себе скрутил решение с серверами в DO, и из-за недавних наших местных ужесточений пришлось местный же серверок себе брать. В общем, вся эта скрученная экспормптом конструкция требовала постоянного внимания: чего то отваливалось, чего то надо было переставлять, случалось это как водится - невовремя. Мне это всё надоело, и я решил сделать себе автоматизацию.

▶️ План был такой: делаем центральный сервис, который управляет пулом vm "здесь" и "там" (облака разные - зеленое грефовское и DO). Тут раскатывается машинка с парой протоколов, и "там" один или два протокола. Центральный сервис должен много задач выполнять:
• должен следить чтобы машинки "тут" (ingres) были живые и поднимать новые по команде админа
• должен управлять пулом серверов "там" в разных датацентрах - "чинить" их по мере необходимости, поднимать и удалять уже ненужные;
• сервера "тут" должны иметь легкую автоматизацию: тестируем коннект, при проблемах меняем канал, проблемный канал "чиним" (перестраиваем конфиг на другие параметры, чтобы он снова работал)
• сервера "там" тупые vm по шаблону.
• хочу видеть статистику доступности и качества канала к каждому серверу; мне надо понимать какой нынче самый стабильный, для ответственных вопросов, когда нужно чтобы не тупило, по возможности;
• хочу иметь возможность на разных серверах "тут" менять каналы (в зависимости от того, что мне надо)
• хочу под руками иметь коннекты на ingress (чтобы актуальные раздавать домашним любителям всяких роблоксов)

👉 Такая вот задача - но не в этом суть, это просто так, для иллюстрации. По мне - так не сильно сложный сервис, но и не одностраничный.

(...) В следующей части как это все реализовывалось


@deksden_notes
👍124
⚪️ Проект выходного дня - SaaS за уикэнд ч2


(...)

В общем, созрев я стартанул кодекс, засидил им меморибанк с проекта-донора, и начал проговаривать ТЗ. За полдня сделал прототип скриптов (на vm был питон, поэтому на питоне), POC работал вроде норм. Каналы переключал, если надо чинил. Оставил это все крутится под текущую работу, приступил к формированию ТЗ.

▶️ ТЗ формировал долго, остаток субботы беседовали про концепцию. Все утро вс ушло на фоновое создание инфраструктуры под проект:
• пара vercel проектов
• пара supabase аккаунтов (beta/prod)
• resend аккаунт
• купить домен
• заведение домена в simplelogin (не хочу почтовик вешать на такой сервис, но аккаунты ему свои нужны)
• подключение всего ко всему с выгрузкой в .env и последующим раскладыванием куда надо

▶️ Поэтому с большим интересом смотрю на Stripe Projects чтобы раскатывать подобные вещи СУЩЕСТВЕННО быстрее. Можно конечто через $agent-browser, но тут все таки быстрее самому. Dev ops это боль, конечно.

▶️ После нудного подъема пучка сервисов - возвращаемся к ТЗ. Еще раз все полируем вопросами, граундим на созданную инфру, и в товарном виде засылаем на реализацию. Примерно 2:40 это все делается, и - уже вечер, смотрим итоги первого протокола.

👉 Идея эксперимента была в ваншоте по подробной спецификации
👉 ui конечно ИИшный, много всего, запутано и не оч удобно.
👉 ui не такой страшный, как я преполагал
👉 в целом чего то видно, все что прямо проговаривали - да, есть
👉 пользоваться в таком виде можно, но не очень
👉 функционально - основное работает, трафик идет, переключает, работает в проводном и мобильном кейсе, все протоколы;

☝️ Выводы: в принципе, можно и большие таски задавать, но готовить их реально примерно столько же, сколько оно их делает

В UI / UX оно слабо понимает и соображает. Чтобы было удобно, красиво и хорошо - потом большая работа напильником.

Делать сразу десяток фич можно, но не нужно: каждая сделана кривовато, неудобно, и очевидные вещи упущены. Что то не выводится, хотя надо, что то не так сделано.

В общем, как вариант получить быстрый прототип - норм. Но потом прийдется все по каждому аспекту ревизовать и "доработать напильником". Зато имея перед глазами работающую систему делать это гораздо приятнее и проще, чем "из головы".

🟢 Из плюсов: система сразу сделана под все планируемые фичи. Следовательно, не будет варианта когда придумал фичу из-за которой надо половину переделать. Переделывать - всегда долго и сложно, у меня тут пучок сценариев/тестов, их надо будет переписать. А когда делаешь "объемный ваншот" - там уже есть "место под помидоры".

Ощущения смешанные. Не уверен что это оптимальный способ работы, но что то в этом есть. И - да, в каком то смысле запилить саас за уикэнд можно))

@deksden_notes
🔥156👍4👻1🆒1
⚪️ Китовые страсти


Тут в обсуждениях Мифоса и ожиданиях Картофеля немного потонули две темы

Первая - это новые ценики зайцев, там примерно х2 к прежним. Ну и алибиби кодовый план за 10 закрыла, теперь только за 50 и пока без обновления моделей (глм 5.1 линейки нету никакой, минимакса 2.7 нету).

Ну и новая лицензия Минимакса 2.7 тоже вызвала легкий шитсторм - там запрещено бесплатное коммерческое использвоание.

🔗 Про лицензию ответ Минимаксов: https://x.com/RyanLeeMiniMax/status/2043573044065820673


▶️ Что я хотел бы прокомментирвоать по этому поводу:
• чудес не бывает, экономика должна сходится. Инференс у китов не бесплатный, что показывает опыт заев, которые перебрали клиентов перед ipo и теперь поставили легкий paywall новым клиентам (берут только маржинальных);
• период бесплатных или очень дешевых китайских моделей слегка кончился - теперь они тоже стоят денег; и хорошо, что пока небольших, все таки поменьше фронтира;
• конкуренция все отрегулирует

Я за выстраивание здоровой экономики - у компаний должны быть ресурсы чтобы развиваться, значит денег им надо платить, это нормально. Бесплатно ничего стороннего быть не может, бесплатно вы сами на себя можете поработать - не более. Всем остальным кто вам что то дает нужно бы дать тех или иных денег, если это вам нужно. Это номрально и правильно, но сколько дать - это у вас уже естьв ыбор по ценам на рынке, кому платить.

👉 В общем, видим развитие рынка, кмк

——

Upd 1️⃣ : минимаксы подтвердили что коммерческая разработка с их моделями, в том числе селф-хостед - вполне возмоджна и приветствуется. Пруф в комментах. Нельзя SaaS бесплатно на их модели сделать, тут надо о коммерческой лицензии с ними договорится. Большинство провайдеров договорилось))


(ц) так и живем!

@deksden_notes
👍195🤓1
⚪️ Про эпохи

Интересный текст, философский - спасибо @o2alex. Прочитайте!

https://m.facebook.com/groups/neognostic/permalink/2345005566011580/

Если кто то конвертнет в телеграф - киньте ссылку в комменты для тех, кому сложно в мордокнигу

——

Upd 1️⃣ : спс @densce

🔗 телеграф тут: https://telegra.ph/neognosticizm-04-13

@deksden_notes
👍8❤‍🔥1😁1
⚪️ Codex App превращается, превращается, ...


... в брюки! В какое то подобие IDE. Народ там раскопал такое: встроенный браузер и аннотация элементов для агента (да, как agentation). Ну - удобненько будет, да. Хотя и сейчас ничего не мешает подобный сетап собрать, из пары компонентов.

А еще кто то спрашивал - зачем терминал с баузером?))

Ждемс

Видимо, это следы от супер-аппа. Как минимум жду еще встраивания browser use агента - будет такой коворк. Хотя мне идея использовать свой браузер уже с моими авторизациями кажется ближе.

@deksden_notes
10👍9👎1
⚪️ Управление пулом подписок


Поделюсь актуальной для меня темой - управление пулом подписок. Интенсивное использование ИИ агентов приводит к необходимости пользоваться инференсом в приличных масштабах, об использовании одного аккаунта речи особо не идет.

▶️ Цены и уровни подписок. С появлением подписок за 100 и 200 можно рассмотреть варианты перехода на них, но я пока не особо знаю о количестве инференса в каждой подписке. Пока мне кажется у вариантов покупки аккаунтов плюс на плати маркетах з 300 рублей конкурентов по эоконмике нету! Ведь х20 использования в подписке за 200 - это лишь про 5 часовые сессии, не факт что недельные лимиты там х20. А цена - 300р это $3-4. То есть это х50 к подписке за 200. В общем, каждый сам решает.

▶️ Софтина. Я использую для управления пулом приложение Quotio для macos. Оно рабоатет поверх известного проекта CliproxyAPI, который сам по себе умеет управлять подписками. Кто то использует proxyPal c гитхаба (тоже сделан поверх CLIproxyAPI). Что дает софт? заводите в него подписки, софт настраивает ваших агентов (codex у меня) использовать локальный прокси, а прокси уже при "упирании" в лимит прозрачно перенаправляет аш запрос на другой аккаунт. В итоге работа идет без перерыва, вы просто наблюдаете как таят лимиты))

▶️ Расчеты. В подписки сейчас входят да лимита - на 5 часов и на неделю. Причем, все они важны по разному, но объявляют объем только одного лимита - в 5 часов. Это странно, конечно, но как есть!

▶️ Ротация. Я ставлю в прокси ротацию подписок по принципу "Fill First". Это как раз чтобы посчитать удобнее было. Там есть еще round robin - может быть такое будет удобнее если хочется чтобы 5 часовой лимит сбросился быстрее (тогда каждый аккаунт тихонько потрогают, и он стартует сессию) - но меня смущает кеш в этом случае, возможно, он плохо работает. Поэтому fill first.

▶️ Подсчеты лимитов. Когда пользуешься подписками в режиме fill first, то видно с каким интервалом обновляются аккаунты. У меня получается 45-50 минут между двумя аккаунтами (2 потока с агентами со свармами). Это означает, что если я хочу работать непрерывно "без обеда" - то для покрытия 5 часового лимита: 5 * 60 = 300 / 45 = 6.(6) это 7 аккаунтов минимум в ротации. если слегка "добавить" газа и интервал снизится до 30 минут, то уже 10 аккаунтов. Оценку по непрерывности работы сделали.

▶️ Общий объем. Сейчас одна "выжженая" 5 часовая сессия = 15% недельного лимита (раньше было 30%). Это значит что 45 минут вашей работы - это 15% недельного лимита. То есть 15/45 = 0.(3)% в минуту при ротации аккаунта за 45 минут. Выходит, у вас в одной подписке 303 минуты работы примерно. Если в неделю 7 дней система работает по 10 часов, вам надо 70 часов работы, это 70 * 60 = 4200 минут. То есть в подписках 4200 / 303 = 13.8 ≈ 14. Если оставлять на ночь и будет выходить под 20 часов, то это 12k минут или 40 подписок. Вот вам и диапазон потребления - 14-40 аккаунтов, пока "сделать" больше я не организовал (это облачный оркестратор уже будет, я готовлю - спасибо, exe.dev).

▶️ Подписку за 200 не брал, но мне кажется даже если там х20 - мне ее не хватит)) По мне - это довольно интенсивная работа агентов в день, без "ночных смен", не более. Но на эти деньги пока можно взять 40-50 подписок плюс, что все таки поболее. Инструменты типа cliproxyapi делают удобство использования про/пучка плюсов одинаковым

(ц) вот такая занимательная арифметика!

@deksden_notes
🔥234🤝2🙉1
⚪️ Озадачен


Я тут решил посмотреть расход токенов и немного удивился.

Да, свармы конечно кушают неплохо, но не настолько же. Это ccusage.

Кто то еще в последнее время считал? Это оно сломалось или я правда мог столько сжечь?

@deksden_notes
🤷‍♂5🤬3
Forwarded from Bulat Ziganshin
но скольких трудов мне стоило протащить в этот текст "мужчин"...
😁55👍4
⚪️ Как вы разрабатываете свои флоу?


Сейчас все кто работает в AI Dev уже волей-неволей наработали свой флоу, свой подход к решению задач.

Кто то юзает стандартные упряжки, кто то тестирует и пользует разные инструменты, кто то сделал свои.
Кто то берет набор фреймворков и юзает, кто то пилит свои.


Какой ваш ai стек?

1️⃣ базовая упряжка? в какой операционной среде работаете?
2️⃣ флоу? какими процессами пользуетесь?
3️⃣ тулы? какой то дополнительный AI SWE tools?

——

▶️ Я пользую codex в основном с гпт моделями, иногда СС и Опенкод с разными, в основном китовыми моделями.

▶️ Флоу у меня свой, на меморибанке основан и сформированных подходах. Я обязательно изучаю разные фреймворки в поисках каких то идей и подходов, и некоторые адаптирую. Да - все это типа superpowers, beads, openspec, speckit, bmad, oh-my-всякое. Смотрю чего нового получилось - вот последнее это сварм в кодексе, который сейчас активно внедряю в разные этапы флоу (в основном на сбор информации, хотя код тоже пытаюсь писать свармом, когда в стандартной упряжке).

Отработанные моменты флоу, когда они превращаются в рутину - вношу в свой оркестратор, чтобы он детерминированно их применял. Автоматизация по классике. Экспериментальные флоу все идут "в ручном" режиме.

Флоу адаптирую по lessons learned: если что то сделано не так, если какие то проблемы вскрылись, если что то неоптимально - стараюсь не только исправить, но и подумать где во флоу была "дырка" через которую данная проблема попала

▶️ Тулы, да - использую доп тулы. Для UI иногда stitch юзаю. Иногда cmux как оркестратор или что то для удаленной работы. Для автоматизации рутины - свой оркестратор. Конечно специфические приблуды в виде agent browser, playright, agentation.

Скиллы - да, иногда делаю, но думаю тут крупнейшая зона развития у меня: много можно обернуть в скилл, думаю надо что то достать из меморибанка и в скилл заворачивать. Например, операционные ранбуки для проектов. Сценарные вещи в проекте - чтобы агент грамотно оркестрировал помимо детерминированного подхода. Девопс всякий - разворачивание на стейджах, миграции, бэкапы, мониторинги прода, чтение логов и телеметрии, реакция на инциденты. Это все могут быть скиллы, и сюда нужно агентов сажать, конечно.


(ц) так и живем!
19🔥9👍1🙏1
⚪️ DESIGN.md


Не знаю, отслеживаете ли вы тренды в UI deign tools, но я посматриваю, благо иногда такое надо. Вот, например, если в кодинге Гемини сейчас особо ничем не выделяется, то для дизайна Ститч вполне себе употребим и полезен. Благо он еще и развивается довольно бодро!

Не так давно было крупное обновление, которое в том числе принесло концепцию DESIGN.md файлов. Это как AGENTS.md в корне репо для кодинговых агентов, только для дизайнерских агентов (типа ститча). Это обычный md файлик с описанием дизайн-системы вашего проекта, который дизайнерские агенты должны подхватыать.

🔗 Вот презенташка того обновления Ститча: https://blog.google/innovation-and-ai/models-and-research/google-labs/stitch-ai-ui-design/

🔗 Дока: https://stitch.withgoogle.com/docs/design-md/format

А заметку меня побудил сделать вот этот сайтик, на котором собраны дизайн-стили многих известный сайтов, и теперь их можно одним кликом себе забрать.

👉 https://getdesign.md/

🔗 Еще и гитхаб его : https://github.com/VoltAgent/awesome-design-md

(ц) такое мне представляется полезным


@deksden_notes
5❤‍🔥125👍51😁1
⚪️ Доработка плана свармом (plan swarming)

Несколько слов о том, почему я в последнее время перестраиваю свой флоу в том числе на использование свармов (термин тут поясняется - https://t.me/deksden_notes/269).

В общем, пишу я тут планы с агентом. Примерно два-три часа диалога на предмет чего там и как, снимаем gaps, дорабатыаем, все вопросы отвечаем, прописываем. ок - наконец то вкатываем. меморибанк планируемый апдейт: пучкок ADR, Specs с разным (границы сущностей, контракты, протоколы взаимодействия), фичи, интеграционный протокол доработки. Немаленькая штука получается. Агенту все нравися (кодекс 5.4 high).

👉 Тут я и решил экспериментик провести. 

1️⃣ Натравил на оригинальный контекст свой промпт на рефлексию/ревью плана (довольно простой, в плане исследования разное по аспектам указано: от С4 структурирования до ui). Для эксперимента это не так важно. Поработав, оно выдает мне 12 (!!!) high/medium risk недоработок по плану! omfg. Читаю - да, там контракты разъехались, тут миграция недопрописана, - в общем, вполне реальные источники багов. 

И я понимаю что рефакторинг я затеял не по зубам бюджету внимания. Что делать? Отказываться от габарита задачи и резать на блоки?  Ну что за пораженчество, - нет конечно, появился перкрасный повод для эксперимента!)) Правильно подумали - ударим свармом по дефициту внимания! Пускай компьют зальет недостаток голов внимания.

▶️ Запускаем тот же самый промпт, только делаем его сварм-ориентированным: указываем что 5 субагентов на основании письменного задания проводят исследование (каждый смотрит по всему плану ревью), формируют итоговые отчеты, а оркестратор интегрирует их в свой отчет. 

‼️ Цель эксперимента: показать что мультисамплинг частично компенсирует недостаток внимания.

Замечу, мы это запускаем после того как разок уже полирнули и устранили 12 важных недостатков. 

Итоги эксперимента?  Еще 11 issues с которыми согласен оркестратор (а он, между прочим, делал этот план), и из них 5 high приорити. Опять недотянутые контракты, непройденные до конца сценарии. 

▶️ Продолжаем. Теперь мы ьерем ТОТ ЖЕ промпт, но просим нарезать план ревью на фокусные аспекты, и по каждому из фокусов запустить отдельного субагента. Обмен - тоже через файлы, конечно. 

‼️ Цель эксперимента: показать что фокусировка сильно улучшает качество работы - это все таки значительное сужение габарита задачи

Результат: напомню, что в документации уже ВСЕ выявленные ранее изменения, это мы выкапываем то, что не заметили ранее. Нашли еще 7 недостатков, в том числе один high. Негативные сценарии недоработаны, сценарии доказательств недотянуты, двусмысленности, границы и формализация процессов.

Применяем выявленные исправления. Уже скромнее, да. 

▶️ Да, мы не остановимся: теперь мы будем на каждый фокус запускать5 субагентов. Всё то же самое, но 5 раз по каждому фокусу с интеграцией в единый отчет. Сумеем ли мы вытянуть что то существенное? 

‼️ Цель эксперимента: показать что мультисемплинг - мощь, которой можно усилить фокусировку.

Результат: получилось 5 фокусов, и 5 семплов, итого 25 запусков субагентов. большей частью уже medium/low, значит что могли почти все нашли. 1-2 high важности, но я не все бы так оценивал. Кстати, оркестратор их и не взял за high по итогу. Но находки вполне полезные - детали стыковок протоколов взаимодействия, контрактов. 

Применяем. Уф. Скромнее, но все равно нашли чего то важное! Неплохо. Главное - убедились что модель уже ничего доработать существенного не может, значит точно все что можно нашли. 

(...) продолжение: https://t.me/deksden_notes/666

@deksden_notes
🔥159👍52
⚪️ Доработка плана свармом (plan swarming) ч2

(...) начало тут: https://t.me/deksden_notes/665

Даже не спрашивайте сколько токенов ушло! Времени - час наверное. Прогонов? 1 + 5 + 5 + 25 = 36)) Вот вам и "доработка напильником и примерная оценка сколько "стоит" залить компьютом когда модель не очень тянет. Последние 25 прогонов наверное лишние, но можно по 2-3 фокусных семпла сделать. Либо сразу пускать фокусный ревью с мультисемплингом.  Хотя итеративно - это все равно сильнее, так как выявленные проблемы фиксим, и точно ищем что осталось, а не одно и то же находим.

👉 Главные выводы: мультисамплинг работает, фокусировка работает. Сварм делает удобным использование и того, и того, и в комбинации - приемлемо и по простоте задействования (стандартная упряжка, простой промпт), и по времены работы (чуть дольше "плоской" работы). Недостатки? Токены жгем как не в себя.

👉 Зачем до идеала допиливать планы: потому как вложенное на этапе планирвоания окупается лучше всего - исправлять при реализации, а тем более после гораздо сложнее и дольше.

(ц) так и живём!

@deksden_notes
🔥167👍3
⚪️ Gemini CLI ← Subagents



Тут не прошло и года как в Gemini CLI завозят субгентов! Они оч долго держались - видимо, мнение что с контекстом 1m им это зачем? Но ведь субагенты - это не про экономию контекста.. Видимо, и до гугла дошло. Что ж, лучше поздно!..

🔗 Блог: https://developers.googleblog.com/subagents-have-arrived-in-gemini-cli/

(Осторожно, сделать тёмную тему или следовать настройкам системы в режиме отображения гугл в блоге пока не научился. Вот к концу следующей пятилетки соберут совет директоров, одобрят - тогда возможно допилят! Может, к тому времини и gemini CLI научится сделать такое в коде - но пока всех ждет удар в глаза. Это же гугл, а не какой то там стартап, им некогда о таких мелочах думать и некому, мало же народа)

🔗 Дока: https://geminicli.com/docs/core/subagents/
🔗 Анонс: https://x.com/JackWoth98/status/2044446839290622084

В целом, по фичам се довольно стандартно, на уровне того, что было в СС до сварма. До асинхронных субагентов с координацией в реальном времени Гугл пока не дошел, но параллельно пустить агентов можно. С катомными промптами и выбором модели, тулов. В целом ок, но немного не фронтир.

@deksden_notes
😁11👍3