DEKSDEN notes

Gemini 3.0 - 2m context?

Из курсора вроде как.

Все обратили внимание?

недолго грок форсил самым большим контекстом на рынке. MRCR у 3.0 еще заметно выше, так что контекст будет неплох)

Hope so

🔥3

322 views12:16

DEKSDEN notes

Клодзеды фшоке от Гемини 3

Холст, масло, сыр, колбаса

😁8

394 views13:08

DEKSDEN notes

Опа!

П.С. Вроде заработало

🔥5🥰3

416 viewsedited 15:03

DEKSDEN notes

Agent Sessions

▶️ Есть такой open source инструмент - agent sessions (macOS). Работает с Кодексом/СС/Gemini Cli.

Смотрит сессии (транскрипты), статистику сообщений, в меню показывает лимиты.

Сделал @jazzyalex - респект! 🤟

🔗 https://github.com/jazzyalex/agent-sessions

(ц) Такое мы ставим, пользуем, поддерживаем!

#post
@deksden_notes

GitHub

GitHub - jazzyalex/agent-sessions: Session browser + Agents Analytics + Limits tracker for Codex CLI, Claude Code, OpenCode, Gemini…

Session browser + Agents Analytics + Limits tracker for Codex CLI, Claude Code, OpenCode, Gemini CLI, Factory Droid & GitHub Copilot CLI. Search ALL past sessions, filter by folder·repo, ...

👍7🔥2❤1

374 views09:49

DEKSDEN notes

Галя! ... У нас - замена!

Клозеды выкатили Gpt-5.1-Codex-Max модель, и к нему Codex v0.59 с несколькими добавками

🔗 Про модель: https://openai.com/index/gpt-5-1-codex-max/

🔗 про v0.59: https://github.com/openai/codex/releases/tag/rust-v0.59.0

Примечательное:
- Follow up к Gemini 3. Волнуются за переток кодеров, определенно! Damage control - как по мне
- Max Заменяет обычный кодекс
- Дольше выполняет работу - не один я заметил про снижение "смелости" и "выносливаости" в 5.1
- Дополнительно подкрутили способности работать именно в Windows, даже статья есть (https://developers.openai.com/codex/windows)
- Кодинговые бенчи заметно повыше но на уровне ризонинга значительно выше; привет лимитам;

- v0.59 дополнительно сделал какое то новое Compact
- параллельные тулколы
- полярная лисиченька (https://github.com/openai/codex/pull/6906) - хз что такое, но мило;

▶️ Upd: заменили термины. Теперь approvals говорят об Agents Mode.
- в модели Max 4 уровня ризонинга. Дефольный - средний, второй. Выше него высокий и очень высокий.

▶️ Upd2: К полярной лисиченьке - верно заметили, что к кодексу "пришел песец".

▶️ Upd3: Codex CLI v0.60.1 released

Features
- Set gpt-5.1-codex as default model for API users.

Это было быстро)) Сингулярность наступает!

и первый раз вижу 0.xx.1 релиз. Видимо, хотфикс

#post
@deksden_notes

Openai

Building more with GPT-5.1-Codex-Max

Introducing GPT-5.1-Codex-Max, a faster, more intelligent agentic coding model for Codex. The model is designed for long-running, project-scale work with enhanced reasoning and token efficiency.

1🔥5❤1

518 viewsedited 19:30

DEKSDEN notes

Codex-5.1-Max тест

Кто то смотрел на мой #DeksdenFlow (про него подробнее есть по нештегу) - решил я затестить новый Макс на предмет агентности. Был заинтригован тейком про некие "long running tasks".

Сделал вариацию флоу, упрощенную, назвал mini-protocol: когда делаем план в текущей ветке main, план пишем в один файл, но также идем по шагам (группа задач) и делаем сохранение контекста/лога/коммитим после каждого шага.

В общем, небольшой протокол из 3х шагов, в каждом 5-6 задач.

Сказал - сделать весь протокол за раз, без остановок!

Итоги: шаги 1 и 2 сделал ваншотом, но после 01 шага забыл сделать коммит, сделал после 02 шага и остановился. Работал 22 минуты на -max-medium (топовый нейминг, да?).

Шаг 03 доделал нормально, с соблюдением протокола.

▶️ В общем - неплохо, но не АГИ и не вау.

🔥2👍1

385 views20:19

DEKSDEN notes

Jules + Gemini 3 Pro

Не стал писать про сабж, пока не раскатали доступ к Gemini 3 хотя бы на Pro подписчиков - пишут, что раскатали!

Еще один способ потрогать Gemini 3 с кодом.

https://jules.google/docs/changelog/#introducing-gemini-3-pro

▶️ Upd: на всякий проверил Gemini CLI - нет, для AI PRO доступа пока не дали.

1🔥3

549 viewsedited 05:53

DEKSDEN notes

DROID: Background processes

Впилили менеджер фоновых процессов:

https://x.com/bentossell/status/1991425204380397647?s=20

Еще на одну фичу ближе к СС. Пожалуй, самый упакованный из альтернатив СС выходит! Жаль что закрытый. Зато все что надо скопировано! Скиллы накануне скопировали.

Больше упряжек - хороших и разных

X (formerly Twitter)

Ben Tossell (@bentossell) on X

droid background processes: ON

👍1

393 views12:59

DEKSDEN notes

Opus 4.5 - сегодня?

Слухи такие, да

Понятно почему codex-max выпустили не в обычный рыбный день: видимо, его под опус оставили!

А плотненько пошли релизы!))

Ждем опуса? или уже нет?)

415 views13:00

DEKSDEN notes

Gemini 3 Pro in CLI

... раскатилось на пользователей Про аккаунтов из листа ожидания!

Мне тоже раскатили - confirmed. Потребовался повторный вход в аккаунт, имейте ввиду - видимо, иногда так бывает

Go тестить, они создали!..

#post
@deksden_notes

389 views16:14

DEKSDEN notes

Лимиты Codex

... снова сбросили!

Вроде бы где то там кодекс опять лег или работал с большими задержками. "Комплимет от заведения" в итоге!

Ну - гуд, чего тут скажешь!

🔥3

341 views08:32

DEKSDEN notes

MCP Apps

Все же помнят протокол MCP? Так вот - он развивается, несмотря на критику отдельных моментов (я про context rot и решение в виде code mode execution).

Так вот - MCP UI и OpenAI Apps SDK родили в итоге MCP Apps

Читаем анонс в блоге

https://blog.modelcontextprotocol.io/posts/2025-11-21-mcp-apps/

Сама спека по ссылке чуть выше, но вот сам драфт документа:

https://github.com/modelcontextprotocol/ext-apps/blob/main/specification/draft/apps.mdx

Что дает? Возможность серверам выдавать стандартизированное UI для хоста. Фича интересная, применение тоже вроде бы разнообразное. Круто что вендоры объеденились, и вместо 2х разных решений мы получим единую спеку, с шансами на широкую адоптацию в отрасли.

Прикольно

(ц) Такое мы одобряем!

#post
@deksden_notes

MCP-UI

MCP-UI | Interactive UI for MCP

Interactive UI for MCP - Build rich, dynamic interfaces with MCP-UI

👍3

375 views08:52

DEKSDEN notes

Google Stitch + 🍌 Pro

Никто особо не пишет, но у Гугла же есть UI design tool c AI:

🔗 https://stitch.withgoogle.com/

Ну так вот - туда точно завезли NanoBanana Pro, и не исключаю что Gemini 3 Pro, но точно пока не понял.

Впрочем, этим инструментом пока не пользовался, хотя попробовать планирую. Отслеживаю в любом случае!

#post
@deksden_notes

Stitch

Stitch - Design with AI

Stitch generates UIs for mobile and web applications, making design ideation fast and easy.

👍7❤1🔥1

406 views12:47

DEKSDEN notes

Google Gemini 3 Pro первые впечатления

Upd: Пост будет пополняться свежими впечатлениями, чтобы не спамить. Кому интересно - смотрим апдейты.

1️⃣ Еще не затестил в полном объеме и с кодом, но первый плюсик Гемини заработала.

👉 Решал проблему входа в виртуалку Ubuntu под Paralllels на macOs. Случилась проблема с конфигурацией сетевых адаптеров и режимов работы.

- Кодекс решить не смог, итераций 5-7 заняло.
- Гемини 3 Про за 3 итерации решило.

Вывод: у меня всегда были ощущения что эрудиция Гемини повыше - что и подтвердилось. В devOps заработан плюсик в сравнении!

Upd 2️⃣ : По сравнению с Кодексом Гемини жесть какая болтливая в CLI - чего то рассуждает, делает, комментирует - но мне скорее нравится! Кодекс все таки слишком аутичный.

Upd 3️⃣ : Модель своеобразно слушается инструкций. Насчет чего делать или НЕ делать - регулярно игнорирует. Говоришь "не делай код, давай обсудим" - стартует писать. помимо личных впечатлений этого рода, еще несколько мнений аналогичных слышал. Видимо, это они так агентность подтянули!

Еще такой кейс: модель затащила большой рефакторинг, причем не останавливалась пока весь план не доделала. Не засекал сколько работала, но достойно. CLI. Начал доделывать какие то моменты - кончился лимит. Переключение на другой акк не сработало (я ж его в лист ожидания то не внес! omfg), и я решил что фигня вопрос - добьем 2.5про. В общем, это было ошибкой: все кончилось git reset после нескольких кругов правок. Не писал я код через 2.5 - и не стоило начинать! В общем, 2.5 к тройке как флеш был к 2.5! Фоллбэк вас не порадует, имейте ввиду. Может, для тривиальных задач и норм, но я жду ресета )) Пока расчехляем кодекс

Upd 4️⃣ : Модель вольно относится к инструкциям - если говорить ей "давай обсудим", то шансы что она побежит делать код весьма велики. Своевольная, слабо послушная. Фокус во внимании - на детали самой задачи, а вот как делать, тут агентность выкручена, поэтому со своими указивками лезть ей под ноги не всегда получается

(ц) Продолжаем наблюдение! 🫡

#post
@deksden_notes

👍8

326 viewsedited 07:41

DEKSDEN notes

Opus 4.5

Слухи не отпускают, возможно антропики готовят сабж. Он им и вправду нужен!

Кмк, ситуация для них сложная: им нужно решить 2 большие задачи:

- сделать модель не менее умной чем gpt-5.1/gt-5.1-codex-max, Gemini 3 Pro, что само по себе уже довольно сложно - учитывая что модели конкурентов отличные;

- сделать модель НЕДОРОГОЙ - потому что с текущими ценами/лимитами они сливают по всем форнтам; каждая новая кодинговая штука привыкла хвалиться ВО СКОЛЬКО РАЗ они дешевле и дают больше лимитов, чем антропики

В общем, ...

(ц) будм посмотреть!

#post
@deksden_notes

❤3👻2

345 views11:04

DEKSDEN notes

Opus 4.5 - релиз

Нынче слухи не соврали - и он с нами!

Я говорил о двух проблемах: он должен стать умнее и дешевле. Анонсировали - стал умнее и дешевле.

Умнее: SOTA на SWE Bench Verified, Выше Gemini 3 pro и Gpt-5.1 / Codex Max. Умнее sonnet 4.5, что, впрочем, логично.

Дешевле: цена ⅓ от прежнего. Лимиты - совсем другие, теперь Opus 4.5 примерно столько же, сколько было соннета 4.5 ранее - типа, его можно использовать для daily tasks.

Использует меньше токенов при таком же или лучшем результате. Значительно.

▶️ Desktop

Теперь о Desktop. Десктоп теперь умеет компактить сессию. Ну ок. Мало каким сессиям это сильно помогало, зато теперь не будет неожиданного удара об контекст.

▶️ Tool Use:

https://www.anthropic.com/engineering/advanced-tool-use

Сделали тул для поиска тулов! Теперь грузим тулы по мере необходимости, решая проблему context rot от множества MCP. Всех впечатлил MCP сервер от github, да - 25k токенов.

Про programmatic tools use все понятно - пользвоать тулы в code sandbox и там же предобработать результаты - это коненчо сильно экономичнее чем вываливать пучок данных в контекст. Хотя могли бы придумать штуку для выкусывания ненужных данных из контекста (из истории). Ну ок.

Интересное новшество: tool use examples прямо в описании тулов! Few shot lникто не отменял - это сильно повышает качество. Круто!

‼️ Хватит ли умений опуса для выравнивания с конкурентами? Посмотрим - надо тестить. Бенчмарки нормальные, от гемини опус отстает только в эрудиции. Исправили ли косяки - с враньем, с подхалимством? Посмотрим.

Почти все основные фронтирные вендоры сделали свои ставки!

Upd 1️⃣ : перечитал, посмотрел - и точно: в Claude Desktop теперь есть Claude Code - то есть Claude Code Desktop! 🔥

Upd 2️⃣ : обратили внимание на changelog CC:
- Allow Pro users to purchase extra Opus 4.5 usage

Любопытно

(ц) В интересное время живем - такое нам прикольно! )

#post
@deksden_notes

Anthropic

Introducing advanced tool use on the Claude Developer Platform

Claude can now discover, learn, and execute tools dynamically to enable agents that take action in the real world. Here’s how.

🔥8👍3

409 viewsedited 19:29

DEKSDEN notes

🧩 Memory Bank - опрос

👉 Коллеги! Кто то пользуется в работе с проектами меморибанками / их аналогами?

❓ Какую структуру используете - какие блоки информации там держите? Эволюционировала ли у вас концепция со временем?

Агенты у вас читают меморибанк? пользуются? им помогает?

▶️ Интересна обратная связь. Планировал публиковать небольшие апдейты по теме меморибанка и подходов к ведению.

#post
@deksden_notes

🔥4

345 viewsedited 20:04

DEKSDEN notes

Way back context

О технике промптинга

Интересно, как быстро вендоры додумаются до сворачивания истории «прыжком в прошлое»?

Чтобы контекст экономить.

Типа, модель что то делала-делала, и у нее наконец получилось (или не получилось) - и мы режем историю, возвращаемся в момент когда это все только начиналось и рассказываем модели чем все кончилось (успех или неуспех). Как в «назад в будущее».

Результат? Экономия контекста, эффективные «хождения кругами», без траты контекста, cache friendly к слову!

Пока я это иногда делаю руками для своих сообщений в кодексе с esc esc - типа обсудил что то детальное, уяснил, вернулся к старту обсуждения и продолжил по первоначальной теме разговор.

Но это будет дико полезно для любой агентной работы!

1🔥10💯4👍1👻1

363 views14:15

DEKSDEN notes

Экономическое

Уже и грок сравнивает во сколько раз он дешевле антропиков!

https://x.com/xfreeze/status/1993328493359215054?s=46

Сомнительное реноме на рынке.

#post
@deksden_notes

X (formerly Twitter)

X Freeze (@XFreeze) on X

Grok 4.1 Fast ranks #1 𝜏²-Bench for Telecom Agentic Tool Use - with 93% accuracy outperforming Claude Opus 4.5 & Gemini 3 Pro

Tool calling is where the whole game is for AI agents, and this is where Grok 4.1 Fast takes over

While costing up-to 50x less…

336 views15:40

DEKSDEN notes

Agents по антропиковски

Анты тут бросили интересную статейку прочитать

Effective harnesses for long-running agents

🔗 https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

Замечу - опять harness вместо scaffold. Ну - упряжка, так упряжка. "Запрягайте, братцы конев!" ))

🟢 Статейка годная, откровений не содержит, но из категории обязательных к прочтению про AI SWE. Посему чувствую моральную обязанность чиркнуть "разбор".

Глянул код. Забавно - прога примера на питоне, использует Agents SDK чтобы сделать прогу на JS )) Причем, через АПИ ключ, они не могли по-другому! (тут вставляем мем "Платно!" с гослингом).

▶️ Спека в .txt, но внутри все структурировано XML-like тегами с легким md форматированием. Хозяйке на заметку - теги никто не отменял. В мой список приемов контекст-инжиниринга, конечно тоже входит.

Разделы спеки: техстек - фрон/бэк, настройка Dev окружения, список фич приложения, схема БД, спека ручек апи, схема UI морды, отдельно - дизайн система, отдельно - ключевые взаимодействия в UI, мастер план создания приложения по шагам с задачами каждого шага, список критериев успеха (ACs, gates).

Спека вроде бы достаточно краткая, тезисная, но содержит впечатляющего разнообразия набор разделов, есть о чем сделать вывод для своих спеков.

▶️ Даже в промпте первой стадии инициализации указано чтобы файл списка фич он не трогал. Капсом. Значит они знают как агент любит "срезать углы" - делали фичи, устали, удалили половину фич, и сказали что все уже сделали))

Также сохранение контекста - через файловую систему, но инструкции довольно примитивные. По мне так очень не очень.

▶️ Кодинговый агент - идентично моему протоколу, есть фаза проверок. Не рабоатем, если проверки падают.

Понятно, что агент работает ТОЛЬКО с верификацией: пишем код, проверяем через тесты.

Также много заборов в промпте чтобы углы не срезал. Какие? Протестировать только бэк без взаимодействия с фронтом, нет контроля визуала, использовать JS эвалы вместо UI взаимодействия, отметить тесты проходящими без верификации.

С учетом, что промпт - это пример, даже в нем столько заборов. Для реальной системы их должно быть еще больше. Думаю, даже фокусная сессия отдельного агента на чистом контексте с фокусной задачей верификации на каждый аспект - видимо, иначе нынче никак. Вот вам откуда 6-8 часов работы у кодомашины! Мои флоу тоже часами бегают, пока как быстрее я не знаю.

Также используют файл статуса (как мой context.md), но у них claude-progress.txt - более семантическое имя, к слову.

Также отмечу: много раз указано что времени у агента unlimited, типа - спешить не стоит! Видимо, не только у кодекса агенты вечно куда то опаздывают и спешат. Что RL с нейросетями делает, нервные и задерганные они все какие нынче.

...

Anthropic

Effective harnesses for long-running agents

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

👍8🔥5❤2

368 views10:33

About

Blog

Apps

Platform