DEKSDEN notes
960 subscribers
155 photos
2 videos
1 file
269 links
Канал с моими заметками на разные темы
Vibe Coding -> AI SWE, AI Coding Tools, Agents: Claude Code, Codex, news, links
Чат (!!!): https://t.me/+B1fB3sZbaVthMDhi
Download Telegram
⚪️ Новости с фронта


👉 Для фронтэндеров - маленкая штука: https://font-stealer.vercel.app/

Можно исследовать любой сайт - какие там шрифты, и в пару кликов их спереть! WOFF, WOFF2, TTF, and OTF.


👉 Agentation обновился до 2.0

Риалтайм коллаборативный режим

🔗 https://agentation.dev/blog/introducing-agentation-2

@deksden_notes
😁2👍1🤣1
⚪️ Сварм в Копилоте КЛИ


Похоже - да, эта тема со стаей агентов ушла в народ. Вот и копилот CLI подтянулся. Экспериментальная команда /fleet которая деплоит пучок агентов для параллельной работой над планом задач.

Todo в sqlite положено! ведь это так удобно - сделать sql запрос для получения списка задач. Видимо, готовятся масштабироваться

🔗 https://x.com/_Evan_Boyle/status/2019497961777172488?s=20


@deksden_notes
👍2😁1
⚪️ Opus 4.6 в AMP

Акция - amp заманивает к себе

Надо идти по ссылке:

https://ampcode.com/code/AMP-WFRP-3PME

Я ходил - вроде кончились, но скоро обещали еще докинуть. Вдруг кому захочется в лотерейку игрануть!
⚪️ Cursor Credits в Lenny's Product Pass


Открыл тут LennysProductPass - а там в Курсор дают $50 для обычного Annual тира!

В связи с этим вот постом:

🔗 https://www.lennysnewsletter.com/p/how-to-build-ai-product-sense

‼️ Это вниманию тех, у кого есть подписка на Lenny. Без подписки никак

@deksden_notes
🔥2
Forwarded from A M
Выпустил 2.11 Agent Sessions - из главного что появилось:
- Image Browser и показ картинок из чатов прямо внутри сессии
и модное - поддержка OpenClaw сессий - первый non coding agent в большом зоопарке поддерживаемых агентов
⚪️ Свет мой, зеркальце, скажи! ... (5.2 vs 5.3-codex)

#ddeval #52vs53

Решил провести ЭВАЛ, чтобы сравнить новый 5.3-codex high и свою рабочую лошадь 5.2 high. В обычной работе чтобы понять разницу надо довольно долго поработать, только чтобы уяснить особенности поведения модели. А ведь еще надо вспомнить как оно в прошлой версии себя ведет... В общем, лучше делать предметное сравнение. Силы воли чтобы сделать полноценный бенчмарк у меня не набралось - проблема таки не зудит, но для меня вопрос довольно важный: чем работать дальше. Поэтому я придумал eval - это решение моей специфической условно узкой задачи разными моделями. Тут нужен дисклеймер: задача моя, она не претендует на обобщение и репрезентативность, методика моя, она не претендует на академическую правильность.

Итак, это будет серия постов - смотрите по тегам в поиске, но я постить их буду подряд.

▶️ Что я придумал делать, план эвала:
* берем текущий проект dd-flow
* берем мои промпты на прайминг контекста и общий анализ (прогон сценария и анализ "всего")
* делаем по три контекста gpt5.2 и gpt5.3-codex
* каждый получает идентичные промпты, цепочка из двух: прайминг и промпт на широкий анализ
* агент работает, результат пишет в индивидуальный файл
* после того как все 6 сессий отработают, начнем этап сопоставления
* сначала сделаем сгруппированные таблички по каждой модели (по 3 отчета) - и верификацию находок.
* Верификатором назначим gpt5.2-xhigh: самая дотошная, кмк.
* После верификации и сведения по модели, получившиеся 2 отчета сводим в единый итоговый отчет об обнаруженных проблемах.
* ...
* PROFIT!

‼️ Важные замечания: промпт на анализ предполагает очень широкий спектр анализа - там и code smels, и архитектурные косяки, и куча прочих аспектов. Для выцепления настоящих проблем это слишком широкая задача. Лучше каждый такой аспект отдельно аналиировать. Но у меня в первом приближении хотелось бы посмотреть что "широкой сетью" удастся вытащить! Поэтому значительные вариации в ассортименте найденного даже одной моделью вполне ожидаемы. То есть важно все правильно интерпретировать.

👉 Цель этого эвала - общая оценка работы моделей в сравнении на похожей задачей. Мы скорее будем наблюдать за работой, чем за результатами. Результаты теста по определению будут немного рандомными и разбросанными - это важно понимать, задача широкая, значит температура будет сказываться и модели будут углубляться в рандомные аспекты.

🟢 Чтобы сравнить именно внимательность модели я следом проведу такой же тест, только выберу ОДИН/ДВА аспекта, почитав "общий" сводный анализ. И там уже можно будет сравнить внимательность и дотошность моделей.

...
1🔥6
⚪️ Эвал 5.2 vs 5.3-codex : погнали!


#ddeval #52vs53

Итак, приступаем. Первый пункт марлезонского балета - это прайминг контекста. Запускаем, смотрим.

1️⃣ Тайминги примерно одинаковые получились, но у 5.3 больше не написано сколько модель работала. Видимо, ее комментарии по ходу работы каким то образом сбивают счетчик! Жаль, я обращал на него внимание иногда. Еще зафиксируем процент заполнения контекста на момент завершения прайминга:
* Gpt 5.2: 1:44 (90%), 1:47 (86%), 2:42 (84%)
* Gpt 5.3-codex: 74%, 66%, 66%.

Все три 5.2 начали задание с составления плана, зафиксировав схему работы. Два кодекса 5.3 тоже составили план, а один запустил сварм агентов (но план не составил). Забавно: 5.3 уже подучена пускать сварм чаще!

Первое наблюдение: скорость работы на короткой задаче прайминга - сопоставимая, но контекст кодекс забил заметно больше: все три сессии - значит, это особенность поведения модели.

2️⃣ Приступим к следующей фазе. Запускаем промпт на анализ, и ждем! Тут работа будет подольше.

gpt 5.2: время работы и контекст:
* 1 : работал 14:45, заполнил контекст до 69%, 1 компакт;
* 2 : работал 14:45, закончил на 14% - без компактов;
* 3 : 21 минута, 1 компакт, 55% контекста.

gpt 5.3-codex: время работы и контекст:
* 1 : 15 мин, 23% контекст при завершении, сварм после компакта;
* 2 : отстрелялся за 9:30 примерно, 79%, 2 компакта, без сварма :
* 3 : 20 минут, 48% контекста; сварм сразу.

Получили отчеты, записали их в соответствующие файлы. Зафиксировал размеры:
gpt 5.2: размер отчета:
* 1 : 855 строк
* 2 : 691 строка
* 3 : 662 строки
gpt 5.3-codex: размер отчета:
* 1 : 612 строк
* 2 : 784 строк
* 3 : 629 строк

Видно что между моделями нет особенной разницы в размерах отчетов. Отчет записывался всеми агентами около 2 минут, только одна из 5.2 решила записать отчет поподробнее с номерами строк и записывала 3:40.

Эти забавы скушали 89% лимита 5 часовой сессии на Teams плане (стадия анализа, без сопоставления отчетов).

...
1👍41🔥1
⚪️ 5.2 и 5.3-codex - проведение анализа

#ddeval #52vs53

3️⃣ Следующий пункт плана - это начать делать сводные таблицы выявленных проблем. Для этого мы сделаем две свежие сессии кодекса с 5.2 xhigh, каждая будет анализировать по 3 отчета одной модели.

Задача анализа - двухэтапная. Брать каждую выявленную проблему, верифицировать в коде, добавлять заключение верификатора и формировать сводную табличку:
* N пп
* Описание проблемы
* Статус верификации
* Критичность проблемы
* Отчет 1 : наличие в отчете
* Отчет 2 : наличие в отчете
* Отчет 3 : наличие в отчете

Итого наши 2 агента с xhigh работали около 20 минут, и сделали файлик с итоговыми таблицами.

* Gpt 5.2 : всего 38 проблем выявлено. 100% верифицировано как подтвержденные в коде.
* Gpt 5.3-codex : 41 обнаруженная проблема, 100% верифицировано, но одна - частично (проблема имеет место быть только для старых рантаймов);

В общем, на будущее - стадию верификации можно пропускать. Модели довольно сильные, если что то находят, то это по делу.

4️⃣ И, финальный шаг - сделать сводный общий отчет. Просим новую сессию 5.2 xhigh взять два отчета и свести в единую таблицу. Получаем итоговый файл. В нем уже 67 пунктов - это значит разброс аспектов анализа весьма высок.

Так и получилось: Итоговая статистика по проблемам, по столбцу «Кол-во »
* 1 обнаружение: 52 строки
* 2 обнаружения: 6 строк
* 3 обнаружения: 4 строки
* 4 обнаружения: 0 строк
* 5 обнаружений: 4 строки
* 6 обнаружений: 1 строка

Из 52 проблем, которые обнаружил единственный агент в 23 случаях это был 5.2 и в 29 это был кодекс-5.3! То есть условная ничья, с некоторым преимуществом 5.3. Вот вам и широкий фокус - 1 обнаружение в 52 строках из 67!

...
1👍6
⚪️ 5.2 vs 5.3-codex, итоги

#ddeval #52vs53

👉 Выводы: скорость работы - модели работаю сопоставимое время. Шустрость кодекса 5.3 в задачах не наблюдается в итоговом времени gtd - инстансы агентов 5.2 и 5.3 работали сопоставимое время, разбег во времени работы между 5.2 и 5.3 незначительный. Впрочем, тут может быть дело в сварме, который заметно замедляет. Агент 5.3, который работал без сварма, справился за 9 минут, что заметно быстрее (30% от времени 5.2 или более чем 50% от своего времени в базе), чем 5.2 (там 14-20 минут было).

👉 Качество обнаружения проблем требует отдельной диагностики, но широкий "чес" показывает примерно сопоставимые возможности.

👉 Заметное отличие в работе с контекстом - 5.3 заметно быстрее набирает контекст, и больше его тратит.

👉 Заметное отличие в работе со свармом: только 5.3 пробует его использовать без дополнительного промптинга, видимо уже подучена.

👉 Сварм не сказать чтобы ускорил задачу, но и задача была небольшая (15-20 минут максимум в одну сессию). Скорее сварм замедлил. Агенты в один поток работал на 50%-100% быстрее (9 минут против 15-20).

👉 Возможно, сварм увеличил качество работы: сессии 1 и 3 у 5.3-кодекса работали со свармом. Количество обнаруженных у них уникальных проблем - 12 и 13 соответственно. У сессии 2 которая в один поток работала, обнаружено 4 уникальных проблемы. Разница заметная и выраженная. Возможное объяснение: каждый агент из сварма получил более узкую фокусную задачу, чем отдельный агент в одном потоке, что помогло концентрировать внимание.

👉 У модели 5.2 больше всего уникальных проблем нашел агент, кто дольше всех праймился и кто заметнее всех забил контекст. Впрочем, распределение 8, 5 и 10 не позволяет считать такой разброс заметным, ведь 8 проблем нашел агент с минимальной потратой контекста на прайминг! Так что тут выводов сделать сложно.

▶️ Промпты пока не публикую, если будет выраженный интерес - можно будет зашарить, там ничего секретного и интересного, все довольно линейно.


@deksden_notes
1👍8👻1
⚪️ Эвал моделей - финальный забег по фокусному аспекту

#ddeval #52vs53

▶️ Зафиналим эксперимент! Часть 2: опять 6 сессий, но теперь будет фокусный аспект - типизация: кто в курсе про TS - это использование "as any" и заморочки типизации в коде. Модели будут смотреть только этот аспект, и больше ничего. Так проще проверить действительную внимательность, детальность и смышленость модели.

Этап сбора контекста, тайминги и финишный контекст (процент свободного):
gpt 5.2:
* 1: 3.5 мин, 71%
* 2: 3.5 мин, 75%
* 3: 4.5 мин, 61%

gpt 5.3-codex:
* 1: меньше 2мин, 69%
* 2: меньше 2 мин, 67%
* 3: 3 мин, 70%

Стартуем: gpt5.2 возился заметно дольше, gpt5.3-codex существенно пошустрее. На одной сессии разница раза в 2,5 по времени достигла (там 5.2 после компакта решил еще на разик все переделать заново). Ничего неожиданного! Сварм в 5.3 был в сесси 2 и 3.

Первые результаты сведения находок:

▶️ 5.3-codex : найдено 23 проблемы. сессия 1 нашла 1 уникальную проблему, сессии 2 и 3 со свармом - 3 и 6. проблем. Соответственно, сварм опять сделал лучше.

▶️ 5.2: нашла заметно больше проблем - 34. Это на 50% больше!
- только gpt5.2: 21
- в обоих: 14
- только gpt5.3-codex: 12

🆕 Расход токенов. Сам анализ занял примерно 100m токенов модели 5.2 и 78m токенов 5.3-codex. То есть кодекс на 20% меньше токенов кушает точно. замечу - тут еще потери на сварме! если в один поток, экономия токенов будет еще значительнее.

👉 Выводы по туру 2: сварм в 5.3 действительно улучшает результаты.
👉 Модель 5.3 работает быстрее минимум на 30%, и тратит токенов минимум на 20% меньше. Сварм заметно замедляет агента на небольших задачах.
👉 Внимательность и глубина проработки вопросов у 5.2 все таки больше, и заметно.

🟢 Мой Вывод: дебаг и планирование остаются за 5.2. Кодирование по проработанному плану (когда не нужно глубоких раздумий) вполне можно делать на 5.3 - будет быстрее, дешевле по лимитам, и не хуже! Сварм включаем для более сложных задач, он улучшает качество почти до 5.2 на подходящих вопросах.
👍8❤‍🔥1
⚪️ Antigravity Knowledge Items


Тут Гугол близок к изобретению меморибанка

🔗 https://x.com/antigravity/status/2020180758606807471?s=20

Лучше поздно ..

@deksden_notes
🔥4👻2
⚪️ ... и Боба!


Биба и Боба - два ... трейдера! Торгуй через Бобу - останешся на бобах!

Это волшебый нейминг. Не мог не поделиться. Встретилось в твиттере!


Интересно, что помешало спросить Гемини про разные ассоциации на разных языках? Она знает отлично.

"Итог: Для локального рынка США/Европы — название хорошее и хайповое. Для глобального рынка (особенно LatAm и ЮВА) — это провал нейминга."

"🔴 Главная угроза: Мем «Биба и Боба»"

Нейминг без нейросети нынче делать не надо, да?)

@deksden_notes
5😁2🤣1
⚪️ Opus 4.6 в антигравити

Забрал нового опуса из антигравити, подписка AI Pro.

Обращаем внимание на смену нейминга моделей внутри антигравити - приставка gemini- перед именами моделей пропала

актуальный список смотрим на прокси через

GET http://localhost:8317/v1/models

Я смотрел postman

@deksden_notes
👍7🔥1
⚪️ Опрос: кто как делает


Вопрос к аудитории: вот у вас нейронка закончила задачу. Вы выработали как "принимать" работу от нейронки?

Типа, она вам про чеки/quality gate только докладывает (типа, сделала тесты, тесты прошли).

Или стоит отчет просить подробный: что сделала, как все прошло, чего было сложного?

Или сценарий на приемку работы сделать - типа, use case какой то чтобы проходил?

Или пускай отчет с картинками генерирует?

У кого какая практика или идеи/фантазии?
👍5🔥1
⚪️ GLM 5


По ходу выкатывают на сайт! В чате уже шевелится

Инфы пока нету

Upd 1️⃣: Появилась карточка:

🔗 https://docs.z.ai/guides/llm/glm-5

Ценник - почти х1.5 к glm-4.7, а именно $1/$3.2, но сильно дешевле чем буржуйский фронтир

Есть модель GLM-5-code, она подороже, $1.2/$5

Контекст и модальности те же - 200к, текст. зато сама модель теперь 755b moe с 40b активныз параметров, рост почти х2. Использует DeepSeek Sparse Attention.

Картинки бенчей в комментах, но местами послабее опуса 4.5, а с 4.6 нету сравнений, ждем коммьюнити. На HLE сильнее опуса 4.5! )) Кто тренировал на бенчмарк?!

В кодинговый план glm-5 сейчас доступна только для макс подписок (а у меня - pro). Для pro будет позже, как они разберутся с ротацией поколений модели (видимо, высвободим со старых моделей оборудование). Новая glm-5 будет тратить больше лимита за запрос, но не ясно насколько.

Для новых подписок вводят недельный лимит. Раньше не было

Тестов GLM-5-code и про эту модельсовсем ничего не говорят.

——

Upd 2️⃣ : Еще блог есть

🔗 https://z.ai/blog/glm-5

Там чуть больше тестов и текста про модель

——

Upd 3️⃣ : GLM-5 is coming to Coding Plan Pro users within one week, and we're working to bring it to everyone after that.

——

Upd 4️⃣ : Бесплатный тест GLM-5 на Modal :

🔗 https://modal.com/blog/try-glm-5
🔗 https://x.com/modal/status/2021645783733616800?s=20


——

‼️ Upd 5️⃣ : Важный момент про GLM-5 : это, пожалуй, первая модель, которая тренировалась на китайском железе (чипы Huawei Ascent, кластер в 100k чипов). Декоарируется 100% NVIDIA free.

Мощный китайский удар. Не теоретическая возможность, а практически сделанная модель! Работающее импортоамещение. К слову, с 2025 Z.ai под американскими санкциями на поставку чипов. Опоздали))

Это BIG 🔥


@deksden_notes
🔥9
⚪️ Глм? Кодекс ответил нескучными обоями строкой


В v0.99 alpha замечена /statusline, где можно в строку статуса напихать всяких виджетов. Кто пользовал ccstatusline тот примерно понимает.

Если кроме шуток - удобная фича. QOL повышает.

Ждем релиза

Upd 1️⃣: v0.99 зарелизили

С функцией memory надо будет разобраться, она в экспериментальных фичах - как разберусь, напишу!

@deksden_notes
🔥9👍2
⚪️ Китайский шипмас - MiniMax 2.5


https://x.com/SkylerMiao7/status/2021578926884053084?s=20

Тоже толком не раскатали еще!

——

Upd 1️⃣ : на неделю бесплатно в опенКоде!

——

Upd 2️⃣ : статья, презентующая модель:

🔗 https://x.com/MiniMax_AI/status/2022001452131221872




@deksden_notes
🔥21
⚪️ Юбилейный релиз Кодекса


Круглый релиз - v0.100.0!

Из новинок - JS движок для агента с сохранением состояния между запусками плюс какой то механим памяти /m_update /m_drop

Не особо понятно не только что это, но и зачем это! будем разбираться...

А Кодекс - с юбилеем!

——

Upd 1️⃣ : да, я видел что вышел 0.101.0 с фиксами )) недолго юбилейный рели побыл в актуальных


@deksden_notes
🔥9🐳2❤‍🔥1
⚪️ Google Stitch


... активно развивается в последнее время. Его развитием занята команда, которая также занимается Jules, и мне нравится их темп. Я не очень пристально за ними слежу, но они в последнее время кучу крутых фич впиливают

Вот нынче туда завезли поддержку дизайн систем. Это BIG для такого софта.

🔗 https://x.com/stitchbygoogle/status/2022023576778580148?s=20

Надо будет обзакомится с его возможностями. По впечатлению - формируется весьма годный продукт для дизайна интерфейсов. А гемини во фронт умела неплохо.

@deksden_notes
👍3🔥2❤‍🔥1
⚪️ Большой релиз у Cline - CLI 2.0


Анонс:

🔗 https://x.com/cline/status/2022341254965772367?s=20

🔗 https://cline.bot/blog/introducing-cline-cli-2-0

Новое:
• редизайн TUI
• паралелльные агенты с изолированным состоянием
• доработанный headless mode
• поддержка ACP для интеграции в поддерживающие ИДЕ/инструменты
• win / mac / linux
• акция: kimi K2.5 free, Minimax M2.5 free


Респект команде

(ц) Такое мы отслеживаем

@deksden_notes
🐳4👍1
⚪️ Стадия 0, Прайминг

#ddeval #feb2026eval

С опусом из антигравити возникла сразу же проблема: гугл запросил верификацию моего вьетнамского аккаунта с подпиской на год. Слухи о некотором закручивании гаек, видимо, были небеспочвенными. Верифицировал через смс на телефон через онлайнсим, завел аккаунт, авторизовался, прокинул в VibeProxy для подключения в СС. Ок - едем дальше!

Прайминг GLM-5 в CC: id сессии, тайминги и контекст:
* g1: 2:53, 19.3% used;
* g2: 1:26, 19.5% used;
* g3: 1:20, 17.9% used;
Заметно медленее Opus и заметно меньше использование контекста!

Теперь к опенкоду и MiniMax:
* m1: 24s, 12% used;
* m2: 15s, 12% used;
* m3, 40s, 13$ used;
Заполнение контекста небольшое, но очень быстро, ходя одна сессия х2 по времени вышла.

Kimi K2.5, opencode:
* k1: 18.1s, 9% used;
* k2: 20.8s, 9% used;
* k3: 18.9s, 9% used;
Разброс таймингов минимальный, потребление контекста совсем скромное. И очень быстро!

Прайминг opus 4.6 в СС: id сессии, тайминг и контекст:
* o1: 53s, 35% used;
* o2: 57s, 36% used;
* o3: 40s, 31% used;
Довольно шустро и без разброса между сессиями.

Gemini 3 pro:
* все сессии оч быстро отработали (в гемини нету таймера, засекать время неудобно - но тайминги буквально 15-20), и затраты контекста на прайминг в 3-4%; при миллионе контекста это не такой фактор; сессии маркируем gm1-3;

Референсный gpt-5.2 high, в кодексе:
* c1: 1:41, 10% used;
* c2: 2:18, 12% used;
* c3: 2:16, 12% used;
Не быстро, потребление контекста небольшое.

👉 Краткое наблюдение: разброс в использовании контекста даже в одинаковых упряжках наверное что то означает. Время работы моделей тоже весьма разное.

Вы обратили внимание - я идентифицирую сессии работы агента/модели буковкой и цифрой, для понятности - сессий много, чтобы не запутаться в них

🟢 Ок, двигаемся дальше!

@deksden_notes
4🔥42