DEKSDEN notes
2.64K subscribers
403 photos
7 videos
1 file
518 links
Мои заметки на разные темы, уровень - "для продолжающих")
Vibe Coding -> AI SWE, AI Coding Tools, Agents: Claude Code, Codex, news, links
Чат (!!!): https://t.me/+B1fB3sZbaVthMDhi

(с) 2025-2026, @deksden
Download Telegram
⚪️ Qoder предлагает немного бесплатного Qwen 3.7


Чтобы отпразновать день защиты детей (нет), алибаба решила забустить использование своего нового топового квена 3.7 max в своем ИИ dev продукте qoder. Напомню, что именно в него предлагалось переходить с закрытого iflow. Совпадение с выпуском М3 и кодинговыми планами байтденса считать случайными.

Получаем 200 бесплатных запросов, а после этого действует вторая акция - квен в полцены и 100 бесплатных сообщений qwen 3.7 новеньким. Интересно - оно стекается?)

Бесплатные сообщения обещаны всем тарифным планам, включая бесплатный Community Edition.

🔗 Паспорт акции: https://docs.qoder.com/events/qwen-max-daily-free
🔗 Вторая акция с пол-ценой: https://docs.qoder.com/events/qwen-max-discount


(ц) такое можно и потестить

@deksden_notes
👍5
⚪️ Advisory Strategy в СС


Тут копался в СС разбираясь с Dynamic Workflows и наткнулся на штуку, которую пропустил в анонсах - в апреле выпустили. Побуду слоупоком, но напишу и спрошу чего интересно.


Называется Advisor, пускается командой /advisor, работает только с эндпоинтами самих антропиков, потому что серверная.

Идея в том, чтобы более слабая модель (соннет или хайку) звали более умную модель (опус) в случаях когда им надо бы подумать и чего то придумать. А старшая модель сразу получает тот же самый контекст, то есть его набирать отдельно не надо.

Фишка в том, чтобы черновую более механистическую работу делала более дешевая и быстрая модель, а если надо подумать - зовем более дорогую, крупную и умную.

Бенчи показывают заметный рост качества.


▶️ Предполагаю, что мифос и предполагается в таком формате использовать - глупо такой большой и умной модели ворочать тулами, не царское это дело!

▶️ Вообще, инлайн-оркестрация моделей в ходе сессии - это видится перспективной и крутой технологией, особенно если это все делается "само собой", без ручного регулирования.

Возможно, это будет работать лучше "роутеров", которые гпт придумывало на момент выхода гпт-5.

🔗 Анонс: https://claude.com/blog/the-advisor-strategy
🔗 Дока на тул: https://platform.claude.com/docs/en/agents-and-tools/tool-use/advisor-tool

Кто то использует в таком формате соннет? Как впечатления - работает схема или не особо? поделитесь обратной связью


@deksden_notes
👍72🔥2
⚪️ Верификация аккаунтов кодекс через WhatsApp


▶️ В общем, для верификации заказал и использовал giffGaff esim. esim дают в мобильно приложении, сим ставится сразу на устройство, на счет надо 10 фунтов кредитами загнать, есть план без абонентки.

▶️ Далее решил сделать схему: на компе авторизуюсь в устройство Whatsapp, и типа туда получаю одноразовые коды. А с телефона ставлю тот номер, который надо

Во первых, сменить номер в мобильном приложении whatsapp я придумал только перестановкой приложения (ios). Не удобно. Хорошо щас whatsapp особо не пользуюсь!

▶️ Во вторых, фокус с whatsapp на компе не удался - в whatsapp web/desktop коды подтверждения не отображаются))) Прочитать можно только с основного телефона.

Так что если уж телефон использовать - то особого смысла в whatsapp на компе или в целом в кодах по whatsapp я не вижу. Единственное что - может быть надежнее доставка (мы все таки в роуминге, интернет видимо понадежнее).

▶️ Искренне надеюсь, что удаление аккаунта поможет "освободить" номер телефона для привязки нового аккаунта. Это я пока не проверял, да еще и до 30 дней на удаление данных может уйти.


Как вы решили вопрос с верификацией номеров?


@deksden_notes
👍8
⚪️ Composer 2.5 в Grok Build


x.AI анонсирует доступность модели Composer 2.5 в Grok Build. Вроде бы даже в полписках есть, начиная с SuperGrok (которая $30).

Кстати, аккаунты SuperGrok вроде продают ниже номинала.

В общем, комании явно взаимодействуют

Лимиты использования не указаны.

@deksden_notes
👍2👀1
⚪️ Гадания на некофейной х-уще!


Тут в твиттере (русское название для Х-ком как то у нас не прижилось) греть публику начали новинками клозедов.

Вот такие утечки.

5.5-codex-spark? хм. Ну - прошлый спарк был весьма туповат

Этот вроде может быть и поумнее и покрупнее, раз церебры придумали как кими 2.6 в свою железку засунуть! может и гпт туда какая то поприличнее встроилась

Но, блин - только Про? wft


(ц) впрочем, посмотрим! Это ж слухи

@deksden_notes
🔥6👍2
⚪️ Бенчмаксинг или плохие бенчмарки?

Тут чел хейтит минимаксов за плохую модель и за бенчмаксинг, при этом основывает свое мнение на другом бенчмарке (deepSWE), где у минимаксов все плохо.

▶️ Помимо очевидной странной логики критиковать бенчмаксинг на данных другого бенчмарка, странно смотреть просто на цифры, и не говорить сути.

▶️ Хороший повод сказать про бенчмарки. По мне - ориентация на бенчмарки возможна только в том случае, если ты достаточно ясно понимаешь ЧТО и КАК измеряет бенчмарк

Иначе мы приходим к ситуации "Петька, приборы! Восемь! Что - восемь? А что - приборы?"

Если такого понимания нету, то цифры любого бенчмарка будут для вас "попугаями" разной степени условности. Конечно, удав в попугаях - длиннее!

▶️ А если про эту конкретную метрику - то deepSWE достаточно нашумевший бенчмарк. Заявляется что измеряет агентность и длительность работы. Использует свою упряжку.

▶️ Суть бенчмарка в том, что по мотивам известных open source репо агенту даются некие "большие" задачи чтобы посмотреть работу модели на задачах уровня репозитория, посмотреть как будет изучен репо и как будет сделана работа.

В бенче агенту выдается репо, дается задача, отключен интернет, модель работает в некоем harness с неким промптом от этой упряжки.

Дальше агент работает, что то делает.

Далее работает верификатор - смотрит все ли сделано, тесты, поведение.

▶️ Что меня смущает:
• бенчмарк измеряет в своей упряжке - очевидно что модели тренированы на разыне упряжки
• упряжка в бенче весьма убога
• даем задачи уровня полного ai SDLC, при этом флоу которым мы это обеспечиваем почти отсутсвует
• фактически мы измеряем насколько модель может скомпенсировать убогую упряжку и убогое флоу за счет собственных подходов к работе
• мутно описаны критерии приемки, а мы знаем что если нету цикла обратной связи - модели оч тяжело всделать все норм; впрочем, это тоже претензия к флоу

▶️ На мой взгляд, этот бенч - это параолимпиада для моделей, где проверяется как они ползают с отрезанными руками/ногами и слегка выколотыми глазами.

Ну - получается что морально волевые качества измеряем.

Как это соотносится с реальной отдачей модели от работы - отдельный вопрос!

(ц) простите, накипело!)

@deksden_notes
🔥10😁5👍43💯2
⚪️ deepSWE


▶️ В результате довольно бурного обсуждения в чате тезисов про бенчмарки, могу резюмировать:

* основная масса людей ориентируются на то, что называют "по своим ощущениям", "на своем опыте" - что логично, ведь мы все прмиеняем модели в своих задачах;
* бенчмарк deepSWE зашел потому, что ранжирует модели примерно понятным образом для выполнения кодинговых задач - которые явно требуют хорошей агентности; и то, как именно отранжировал модели этот банчмарк, вызывает понмиание у многих

▶️ В итоге, надо резюмировать - раз совпадает с мнением и ощущением многих, это хороший бенчмарк, который отражает какую то важную грань работы.

▶️ Я лишь подчеркну, что та ось координат, относительно которой ранжирует модели бенчмарк, она довольна специфична, и идеально будет - понимать про что этот бенчмарк.

По мне так он про самостоятельность моделей при решении сложных кодинговых задач. Как модель без особых вводных, без особой помощи от упряжки, без опоры на флоу, без предоставленной опоры на критерии успеха задачи - как модель сама может разобраться с кодинговыми задачами.

Модель, имеющая большой скор на этом бенчмарке безусловно хорошая.


▶️ Полезны ли модели с низким скором на этом бенче для кодинговых задач? Или это плохая модель?

Модель может быть полезна и может быть даже эффективной - но этот бенчмарк ясно говорит: НЕОБХОДИМО сменить условия в которых они работают. Если дать им те самые инструменты и опоры - флоу, схему сбора контекста, критерий для сверки успешности задач.

▶️ Наверное, из всего обсуждаения - самое полезное было развести эти мухи и котлеты.

Как раз этот бенчмарк дает ответ - почему у некоторых людей, которые без навыков ИИ разработки, без понмиания подходов пускают какого то агента на задчу по своему кода - почему у них иногда выходит крайне посредственный результат.

👉 Для сложных условий надо пускать только модели с топовым скором на этом бенче, которые сами могут во многом разобраться.

👉 Ну а умеючи и топором можно много что исполнить))


(ц) как то так резюмировалось!

@deksden_notes
👍13🔥32
⚪️ Windsurf всё!

... как бренд - и становится Devin Desktop. Новая версия уже под новым брендом/именем продукта.

Абсорбировали покупку. Н стали отделять IDE от ADE. Ну - пускай развивают, сёрф всегда был неплох. Фишек там немало.

Ждем теперь Grok Desktop вместо Курсора?

@deksden_notes
2
⚪️ Factory Router


Только на днях писал о фишке /advisory из Claude Code

https://t.me/deksden_notes/824

И вот новый тейк на мульти-модельную оркестрацию. Тут - аналогично используем риторику "выбираем оптимальную модель под каждую задачу". Видимо, чеки на $500m впечатлили отрасль.

Но фэктори предлагает другое решение. Если advisory работает внутри сессии и подключается в отдельные моменты, тут упряжка подключается через роутер, который динамически выбирает модель для этой сессии из некоего пула.

👉 Интересно, что хинты по работе роутера можно дать простым текстом (промптом) в настройках роутера: в примере из блога приведена настройка чтобы /auth и /payments обрабатывались фронтирными моделями, как наиболее важные подсистемы. Картинку с блога в комменты кину. ⬇️

▶️ Ну - любопытно. Не совсем ясно как это будет работать, но вроде бы оригинальная штука. Я припоминаю аналог только у Gemini CLI с ее динамической марштуризацией запроса между flash/pro моделями.

▶️ По мне такой подход на уровне сессии не совсем эффективен. Мне кажется тут бы решать на уровне флоу, какой этап какой моделью делается. Я в своих флоу собираю контекст мелкими быстрыми моделями, план пишу фронтиром, кодинг делал -codex ранее (кто же его заменит нынче хз), и ревью снова фронтиром.

При этом возможность тулом позвать сильную модель на один вопрос мне кажется - супер фишкой. Антропики интересную штуку придумали.

В общем, посмотрим на разные подходы, что то покажет себя как рабочая тема! Может, так и внедрится мульти-модельная оркестрация в массы.

🔗 Анонс: https://x.com/FactoryAI/status/2061862733126275549

🔗 Блог: https://factory.ai/news/factory-router

@deksden_notes
👍4🔥1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
⚪️ Github Copilot - первые отзывы о новой тарифной политике


Напомню что с 01 июня Копилот решил перейти к политике защиты детей денег от вайбкодеров, и ввел тарификацию "по использованию".

В сети появились первые отзывы пользователей

(с) https://x.com/dedene/status/2061798884603744480

@deksden_notes
🤣18😁5
⚪️ Вайбкодер токен-борд


Тут вайбкодеры токенами меряются! Кто сколько B сделал.

Кому интересно - почитайте.

🔗 Тред : https://x.com/MadisonMills22/status/2061850191188127935

Напоминаю, что у нас у Валеры Ковальского тоже своя токеномерка существует

codbash с лидербордом

🔗 Репо тулы: https://github.com/vakovalskii/codbash

🔗 Борд: https://leaderboard.neuraldeep.ru/


@deksden_notes
5🔥2💯1
⚪️ Dynamic Workflows от Anthropic - созвон на ИИшнице


🕓 Время: 18:30 МСК
Продолжительность: 1-1.5 часа.

Сегодня у Алмаза @almazom в его канале ИИшница (закрытый ИИ клуб).

Я проведу обзор голосом первого оркестратор от вендора, ну и какое-то обсуждение сделаем.

Запись выложим тут в том числе, как и материалы.

Welcome!)

🔗 https://meet.google.com/ens-megp-bxc

——

Upd 1️⃣ : Закончили! спасибо за внимание, вот файлы:

🔗 Krispr : https://app.krisp.ai/n/%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5-Workflows-Anthropic--019e8e77883c754bac6fce75cdf16a18

Остальное файлами в комментах: запись, транскрипт, презенташка ⬇️

@deksden_notes
1🔥16😁1
Forwarded from Govard | AI Dev
Периодически проверяю не добавилось ли бесплатных моделей в API NVIDIA

🎁 И вижу приятные новости - добавлены бесплатные:
- Kimi K2.6 - https://build.nvidia.com/moonshotai/kimi-k2.6
- GLM 5.1 - https://build.nvidia.com/z-ai/glm-5.1
- Deepseek v4 flash - https://build.nvidia.com/deepseek-ai/deepseek-v4-flash
👍14🔥75
Forwarded from ABI
Написал небольшой, но полезный bash-скрипт для кастомизации статус-бара в Antigravity CLI. 🚀
Интерфейс там консольный (TUI), поэтому раскрасить вывод ANSI-кодами не вышло, зато получилось аккуратно вытащить через jq всю самую важную стату из JSON-плейлоада:
🤖 Текущую модель и тир подписки
🔄 Статус агента (idle, etc.)
📉 Детальный расход токенов (Контекст ↓ / Вывод ↑)
📊 Процент использования контекстного окна
Теперь перед глазами всегда понятно, сколько контекста сожрала сессия и сколько еще осталось, всё в одну компактную строку.
Закинул исходник в Gist, кому актуально для работы с LLM — забирайте:

https://gist.github.com/ABIvan-Tech/1c979e29a378a67b88a313dfaee18464

#opensource
8👍5
⚪️ Агентные флоу - отчеты


▶️ У меня в работе часто используются агентные флоу. Это именно то, что запускают оркестраторы, да.

И по результатам работы этих флоу агенты, как водится, отчитываются.

▶️ Мне категорически не нравится как отчитывается кодекс:
* он всегда не умел общаться, и формулировал хуже клода
* клод рисовал больше красивых табличек и эмоджи в тему (не все любят, я люблю - сильно разбавляет стены текстов которые постоянно читаю)
* формат отчета надо задавать специально, потому что дефолтный может быть слабо информативен

Клод отчитывается получше, но я же кодексом пользуюсь!

Почему важны эти все отчеты? Потому что флоу у меня длинные, и работы агент делает много. Желательно понимать - чего он сделал.

👉 К чему пришел. Маркдаун - это конечно круто! Но лучше md может быть только html артефакт.

Я повадился для своих флоу в конце формировать итоговый дашборд по результатам прогона флоу. Этот дашборд фиксирует главные итоги прогона флоу по стандартному шаблону (да, агент просто заранее согласованный шаблон юзает)

▶️ На скрине - результат прогона флоу mb-upgrade (этот флоу обновляет меморибанк проекта) и анализа критериев качества обновления (это отдельный ревью флоу, который проверяет что все поапгрейдилось как надо - процесс сложный, там миграция знаний, всё вот это) на одном из проектов.

▶️ Особым удобством мне кажется радарная диаграммка - потому что простой взгляд на ее форму уже говорит как все прошло. если более-менее кругленькая, все ок. "Выщерблены" с любого бока - это просадка какого то аспекта и повод взглянуть на детали этого аспекта.

Плюс диаграммы в том, что когнитивная нагрузка снижается - один взгляд, вместо прочтения таблички с показателями чего там по каждому аспекту.

▶️ Да - здесь нативно использованы субагенты, чтобы сделать анализ по выделенным аспектам. Фокусный субагент, по одному на каждый аспкт - повышаем качество.

А вы заморачиваетесь с отчетами? Какие подходы? Набросайте обратной связи в комменты/чат! ⬇️


(ц) вот таким мы развлекаемся в перерывах между постами

@deksden_notes
🔥1744👍2
⚪️ Очередной ресет на Кодексе!


Рыбный день начался неплохо. Спасибо, tibo!)

(да - я хз почему процентик-другой от сессии пропадает сразу, до использования. Нолог? Вайбкодинг из хард)

@deksden_notes
😁148👍2
⚪️ Еще раз про Dynamic Workflows от Anthropic


почитва критику https://t.me/deksden_notes/814 про отсутствие кейсов, примеров и best practice и послушав ее от меня же на стриме https://t.me/deksden_notes/834 у Алмаза, Антропики раздуплились и выпустили любопытную статью про сабж - как им пользоваться. Писал небезизвестный штатный евангелист компании thariq

🔗 Вот сама статья : https://x.com/trq212/status/2061907337154367865

▶️ Во-первых, они признают что для сложных задач, требующих глубокой проработки (типа ревью кода, анализа безопасности, и в целом для управления свармом агентов) ранее нужно было делать кастомную упряжку поверх claude -p / Agents SDK. Эти упряжки позволяли организовать сложный флоу, который я называю "рельсовым флоу", потому что он детерминированно проходит ряд этапов.

Теперь Клод умеет собрать такой кастомный рельсовый флоу "на лету" в виде js скрипта - именно поэтому фича называется "Dynamic", а не просто Workflows.

▶️ Посмотрите в статье примеры задач, которые по их мнению достойны флоу, вот часть примеров:
* Using a workflow, go through my last 50 sessions and mine them for corrections I keep making and turn the recurring ones into CLAUDE.md rules
* Take my business plan and run a workflow where different agents tear it apart from an investor's, a customer's, and a competitor's perspective
* I need a name for this CLI tool. Use a workflow to brainstorm a bunch of options and run a tournament to pick the top 3.
* Go through my blog post draft and using a workflow verify every technical claim against the codebase, I don't want to ship anything wrong.

некоторые примеры любопытны, да?

▶️ Далее чуток про имеющиеся в флоу конструкции - agent(), pipeline(), parallel(). По мне так опять ничего толком не написали - но я уловил, что они отчетливо по продукту думают что людям лезть в этот js файл не нужно: Клод будет его писать сам, типа, он сам все понимает. Какую модель для какого этапа применить, как изолировать запуски агентов в рабочих деревьях - он все это типа понмиает.

Опять это не бьется с моим пониманием жизни - по мне так видеть на верхнем уровне флоу как раз необходимость для человека. Неужели и это планируется отобрать? Хм..

▶️ Далее про то - зачем рельсовый флоу? Агент устает (недоделывает, не хватает агентной выносливости), плохо делает ревью своего же кода (все это видели, что ревью надо делать хотя бы другой сессией, в идеале - другим агентом/моделью другого вендора), и забивает контекст, церяя цель.

Конечно, рельсовый флоу это все чинит насовсем, хотя и схема оркестратора с субагентами вполне помогала со всем этим справится. Я добивался досатточно надежной работы агентных флоу на оркестраторе, но детерминированный флоу работает конечно надежнее, факт!

▶️ Опять некоторыц тейк на динамические воркфлоу, которые Клод будет делать ИМЕННО под вашу задачу - типа, кастомизируя. Этого, якобы, не добиться в статических рельсовых флоу. Хм - спорно, ну - ок.

▶️ Зато далее - прикольный слайд (положу в комменты) с паттернами агентных флоу. Слайд говорящий, просто забирайте себе, он весьма полезный

▶️ Далее - кейсы, которые Антропики считают подходящими для флоу. Да, Алмаз @almazom - то что мы вчера обсуждали - тоже там, РОУТИНГ на модель)) Забавно что пруф прям через сутки получили, зацени

... ( продолжение в комментах ⬇️ )
2🔥8👍51
⚪️ Текущее состояние с телефонной верификацией кодекса и "дешевыми" аккаунтами


В общем, сейчас более-менее работает такой сетап:

* берем дешевые аккаунты
* работаем со стабильного квн, я ставлю пароль и passkey на аккаунт; можно 2fa добавить - но от наличия 2fa вроде бы зависит доступность whatsapp транспорта для сообщений - такие сигналы были от подписчиков;
* берем в giffgaff esim: на мой айфон вроде до 8 esim можно уместить, на андроиды есть вроде даже адаптеры до 50 esim - но как работают с giffgaff приложением надо тестить;
* нашел несколько старых телефонов для whatsapp - потому что в роуминге смс не всегда надежно ходят, но можно и смс без заморочек;
* на каждом старом андроид телефоне пара номеров в whatsapp + whatsapp business еще один номер; клонирование еще не пробовал - там разные прошивки, не уверен что везде будет стабильно и хорошо работать - надо пробовать;
* так как на каждую esim можно по 3 аккаунта кодекса вешать, то получается что на одну esim нужен один телефон, и это позволяет 3 аккаунта обсулживать;
* я завожу все аккаунты за свой прокси в quotio;
* способа сменить номер с аккаунта нету - мне сделали рефанд на аккаунтах, которые встрали с верификацией; то есть они готовы деньги вернуть, но не сменить номер)) надеюсь финансовые сигналы до них дойдут, и будет способ реабилитации аккаунта для смены номера;
* я предложил tibo такой флоу для смены номера - делаешь заявку на смену телефонного номера; она отрабатывается до 30 дней (не менее 14 дней) - до очередного биллингового периода; в итоге одноразовые телефоны для фрода не подойдут, а норм аккаунты народа можно будет спасти в итоге;

👉 Все работает без проблем, хотя некоторые аккаунты инвалидируют рефреш токен чуть ли не каждый день.

▶️ Какие есть наблюдения от подписчиков:
* не исключено, что codex app палит прокси - и по его сигналам инвалидируют логины;
* некоторые логины в proxypal стоят без инвалидации весь срок; но работа ведется не через codex cli/app, а через droid;
* 2fa связано с достпностью whatsapp для остправки сообщений;

——

Upd 1️⃣ : подписчики дополняют - количество аккаунтов на один телефон может зависеть от провайдера. Для некоторых испанских/португальских - 1 аккаунт, для uk/казахстана (я использую) - по 3 аккаунта


(ц) так и живём!

@deksden_notes
🔥10👍6😁1
⚪️ CPA эксперимент : агент и апи в одном флаконе


Как вы знаете, основной смысл проектов типа CLIproxyAPI - это бесшовная ротация аккаунтов.

Но проект дает openAI/anthropic эндпоинты.

Возникла мысль провести эксперимент - пока пул аккаунтов мелкий и не особо жалко если забанят. Для разработки я беру апи - разные варианты пробовал помимо вендорских. Не дешево, и это мои затраты на моей себестоимости, и от глючности моего софта зависят, поэтому определенный интерес к минимизации есть.

Решил посмотреть как будет, если брать по апи -mini модель с эндпоинтов CPA.

При этом сам кодекс работает через этот же эндпоинт))

Что думаете? забанят? или фильтры не высекут запросы к апи как апи от потока работы агента? Делаем ставки))

@deksden_notes
🔥3🕊1
⚪️ Void(Zero) теперь в Cloudflare


Вы знаете их продукты - Vite, Vitest, Rolldown, Oxc, Vite+

🔗 Анонс: https://x.com/voidzerodev/status/2062520542121304146

Теперь у нас две ведущие PaaS - Vercel и CF

@deksden_notes
🔥5😱4👍1