⚪️ Весна наступила быстрее чем ожидалось
Tibo не даром хайпил, и мы угадали. Май наступил своим четвертым числом.
🔗 https://developers.openai.com/api/docs/models/gpt-5.4
Из 🔥 - контекст 1m токенов! Все таки! Правда и раньше не особо жаловался, но больше - лучше, правда ведь?
🔗 Блог: https://openai.com/index/introducing-gpt-5-4/
Кодекс 0.110 уже содержит 5.4! Go тестить
(ц) День рыбный, гуд!
@deksden_notes
Tibo не даром хайпил, и мы угадали. Май наступил своим четвертым числом.
🔗 https://developers.openai.com/api/docs/models/gpt-5.4
Из 🔥 - контекст 1m токенов! Все таки! Правда и раньше не особо жаловался, но больше - лучше, правда ведь?
🔗 Блог: https://openai.com/index/introducing-gpt-5-4/
Кодекс 0.110 уже содержит 5.4! Go тестить
(ц) День рыбный, гуд!
@deksden_notes
Openai
GPT-5.4 Model | OpenAI API
🔥17🍾7
Forwarded from Жизнь моя жестянка: AI | LLM | Вездеходы
🚀 Выложил memobank — свой skill pack для Codex / Claude / agent-first разработки.
Это репозиторий, который помогает не просто “запускать агента”, а выстраивать для него нормальную рабочую среду: с памятью проекта, понятными протоколами, задачами, ревью и воспроизводимым флоу до результата.
Почему мне самому это было важно:
Потому что в какой-то момент стало очевидно: если агент работает только в рамках одного чата, без структуры, без артефактов и без нормального цикла выполнения задач, то через время всё разваливается — контекст плывёт, решения теряются, а повторяемость почти нулевая.
Именно поэтому текущая репа является по сути тем самым подходом Harness Engineering - когда мы не надеемся на модель” а проектируем для неё среду, в которой она может стабильно работать. Крайне рекомендую еще посмотреть, что пишет об этом @Deksden !
Текущая первая реализация
- с долговременной памятью проекта
- с понятной декомпозицией PRD → features → tasks
- с отдельными чистыми сессиями под задачи
- с verify / review / sync циклами
- с возможностью автономного выполнения до конечного состояния
По сути, я собрал туда начальные практики, которые закладывал, когда делал свою студию:
👉 https://studio.matreshkastudio.cloud/
То есть это попытка оформить в нормальный toolkit то, что реально нужно, если строить долгоживущий agent workflow в проекте. По крайней мере на текущем этапе мне так видится.
Что внутри:
🧠 Memory Bank
📋 PRD → задачи
🛠 execution / verify / review loop
🤖 autonomous mode
🔎 codebase mapping для brownfield-проектов
🧩 поддержка Codex CLI / Claude Code
GitHub:
https://github.com/mrvladd-d/memobank (рекомендую клонить репу и из нее init делать)
Уже доступно и через skills.sh:
https://skills.sh/mrvladd-d/memobank (часть скилов только на этапе индексации)
Далее в планах улучшать текущую версию - и переносить устоявшийся флоу в memobank!
В планах добавить мини-memobank, а также видоизменить его под использование новых клозедивых моделей (gpt-5.4-high/xhigh) - поскольку такая детальная проработка на ряде этапов им не сильно нужна, а скорее важно сконцентрироваться на тестировании и валидации.
#opensource
Это репозиторий, который помогает не просто “запускать агента”, а выстраивать для него нормальную рабочую среду: с памятью проекта, понятными протоколами, задачами, ревью и воспроизводимым флоу до результата.
Почему мне самому это было важно:
Потому что в какой-то момент стало очевидно: если агент работает только в рамках одного чата, без структуры, без артефактов и без нормального цикла выполнения задач, то через время всё разваливается — контекст плывёт, решения теряются, а повторяемость почти нулевая.
Именно поэтому текущая репа является по сути тем самым подходом Harness Engineering - когда мы не надеемся на модель” а проектируем для неё среду, в которой она может стабильно работать. Крайне рекомендую еще посмотреть, что пишет об этом @Deksden !
Текущая первая реализация
- с долговременной памятью проекта
- с понятной декомпозицией PRD → features → tasks
- с отдельными чистыми сессиями под задачи
- с verify / review / sync циклами
- с возможностью автономного выполнения до конечного состояния
По сути, я собрал туда начальные практики, которые закладывал, когда делал свою студию:
👉 https://studio.matreshkastudio.cloud/
То есть это попытка оформить в нормальный toolkit то, что реально нужно, если строить долгоживущий agent workflow в проекте. По крайней мере на текущем этапе мне так видится.
Что внутри:
🧠 Memory Bank
📋 PRD → задачи
🛠 execution / verify / review loop
🤖 autonomous mode
🔎 codebase mapping для brownfield-проектов
🧩 поддержка Codex CLI / Claude Code
GitHub:
https://github.com/mrvladd-d/memobank (рекомендую клонить репу и из нее init делать)
Уже доступно и через skills.sh:
https://skills.sh/mrvladd-d/memobank (часть скилов только на этапе индексации)
Далее в планах улучшать текущую версию - и переносить устоявшийся флоу в memobank!
В планах добавить мини-memobank, а также видоизменить его под использование новых клозедивых моделей (gpt-5.4-high/xhigh) - поскольку такая детальная проработка на ряде этапов им не сильно нужна, а скорее важно сконцентрироваться на тестировании и валидации.
#opensource
3🔥31❤5🙏4🕊2❤🔥1👏1🏆1
⚪️ Прошедший звонок у Родиона
Спасибо за приглашение Родиону: @rodion_m_tg
И его каналу: @ai_driven
🔗 Запись звонка: https://www.youtube.com/watch?v=O3RKuenDtK4
Повеселили мамкины хакеры, которые не поленились придти делать пакости! Публичный Зум все таки недоработан для проведения таких мероприятий - странно, да, как в эпоху ИИ чего то остается недоработанным?))
Презентация к выступления - в комменте
🔗 Репо: https://github.com/deksden-com/feedback-360
Идем в коммены за презентацией ⬇️
Спасибо за приглашение Родиону: @rodion_m_tg
И его каналу: @ai_driven
🔗 Запись звонка: https://www.youtube.com/watch?v=O3RKuenDtK4
Повеселили мамкины хакеры, которые не поленились придти делать пакости! Публичный Зум все таки недоработан для проведения таких мероприятий - странно, да, как в эпоху ИИ чего то остается недоработанным?))
Презентация к выступления - в комменте
🔗 Репо: https://github.com/deksden-com/feedback-360
Идем в коммены за презентацией ⬇️
🔥17👍10❤3
⚪️ Точность 5.4 на большом контексте
Еще работать и работать. Посмотрите на график!
После 256к прям приличное падение. А ведь оно еще и x2 стоит в лимитах. Оно нам надо? Предполагаю, что над этим работают, и к следующему релизу будут улучшения (5.5? 6?) и 1m в принципе станет юзабельным. Сейчас у меня большие сомнения что это работает хорошо, возможно, стоит придумать эвал.
Думаю, для практического использования контекстов 1m-10m нужно чтобы случился какой то прорыв в архитектуре (RLM?)
@deksden_notes
Еще работать и работать. Посмотрите на график!
После 256к прям приличное падение. А ведь оно еще и x2 стоит в лимитах. Оно нам надо? Предполагаю, что над этим работают, и к следующему релизу будут улучшения (5.5? 6?) и 1m в принципе станет юзабельным. Сейчас у меня большие сомнения что это работает хорошо, возможно, стоит придумать эвал.
Думаю, для практического использования контекстов 1m-10m нужно чтобы случился какой то прорыв в архитектуре (RLM?)
@deksden_notes
👍18🔥6🕊1
⚪️ Програмисты вымрут в 2026
RLY? Давайте посмотрим
Интересную картинку увидел в интернетах
Citadel Securities опубликовала исследование что количество объявлений о найме программистов растет, и быстро
Это сильно противоречит какому то общему настрою, что ИИ отобирает труд у программистов, как находящихся на фронтире внедрения ИИ.
Казалось бы - загадка. На самом деле - нет, и я ранее высказывал уже предположения: это парадокс Джевонса.
Парадокс Джевонса — это экономический феномен, при котором повышение эффективности использования ресурса (технологический прогресс) приводит не к снижению, а к росту общего объема его потребления. Это происходит потому, что экономия делает ресурс дешевле, а это стимулирует спрос. В итоге спрос часто перевешивает первоначальную экономию! ))
И тут: нам так много надо автоматизировать в делах, что потребность в ИТ спецах для этого должна просто вырасти. Раньше привлекать ИТ команды к автоматизации часто было экономически нерентабельно, но ИИ снижает бюджеты на ИТ решения - и спрос на них растет!
В общем, спрос на профессию растет!
Надеюсь, такая оценка ситуации - правильная и реалистичная.
🔗 https://www.citadelsecurities.com/news-and-insights/2026-global-intelligence-crisis/
Так что пилим оркестрацию еще усиленнее - это только на пользу)))
@deksden_notes
RLY? Давайте посмотрим
Интересную картинку увидел в интернетах
Citadel Securities опубликовала исследование что количество объявлений о найме программистов растет, и быстро
Это сильно противоречит какому то общему настрою, что ИИ отобирает труд у программистов, как находящихся на фронтире внедрения ИИ.
Казалось бы - загадка. На самом деле - нет, и я ранее высказывал уже предположения: это парадокс Джевонса.
Парадокс Джевонса — это экономический феномен, при котором повышение эффективности использования ресурса (технологический прогресс) приводит не к снижению, а к росту общего объема его потребления. Это происходит потому, что экономия делает ресурс дешевле, а это стимулирует спрос. В итоге спрос часто перевешивает первоначальную экономию! ))
И тут: нам так много надо автоматизировать в делах, что потребность в ИТ спецах для этого должна просто вырасти. Раньше привлекать ИТ команды к автоматизации часто было экономически нерентабельно, но ИИ снижает бюджеты на ИТ решения - и спрос на них растет!
В общем, спрос на профессию растет!
Надеюсь, такая оценка ситуации - правильная и реалистичная.
🔗 https://www.citadelsecurities.com/news-and-insights/2026-global-intelligence-crisis/
Так что пилим оркестрацию еще усиленнее - это только на пользу)))
@deksden_notes
👍24❤🔥5🤔4❤3🔥2👎1
⚪️ Сложности реализации full-SDLC AI
Вот тут наткнулся на кейс:
🔗 https://x.com/Al_Grigor/status/2029889772181934425?s=20
CC ловко вайпнул инфру вместе со всеми данными. Бэкапы в виде снепшотов тоже. ☠️
Выводы? full ai-sdls сложен. Требует выработки устойчивых подходов.
▶️ Еще раз: агент не ходит к проду "как к себе домой!". План миграции и переездов не делается "на лету".
По мне, так надо все как с кодом - сначала исследование, граундинг на текущую инфраструктуру, доклад о том что агент видит. Потом планирование изменений, итеративно, с анализом сайд-эффектов, и только потом какие то манипуляции строго по одобренному плану. Так у агента меньше шансов исполнить какой то опасный экспромпт!
Экспромптом же "на живую", итеративно работать с ценными данными - это абсурд, "... и отвага"! Еще и аудита устойчивости своей системы не делал: ну кто ж снепшоты так хранит? Если система ненадежная, так там только ИИ не хватало
В общем, система обязана быть отказоустойчивой в том числе к случайному "повреждению" изнутри. И работать надо "устойчивыми" схемами. Ревью архитектуры тем же ИИ агентом не помешает. Пусть он пропишет воможный отка каких то элементов и просчитает последствия. Не все компетентны в таких аналиах, так пользуемся интеллектом под руками. Так будет меньше боли
@deksden_notes
Вот тут наткнулся на кейс:
🔗 https://x.com/Al_Grigor/status/2029889772181934425?s=20
CC ловко вайпнул инфру вместе со всеми данными. Бэкапы в виде снепшотов тоже. ☠️
Выводы? full ai-sdls сложен. Требует выработки устойчивых подходов.
▶️ Еще раз: агент не ходит к проду "как к себе домой!". План миграции и переездов не делается "на лету".
По мне, так надо все как с кодом - сначала исследование, граундинг на текущую инфраструктуру, доклад о том что агент видит. Потом планирование изменений, итеративно, с анализом сайд-эффектов, и только потом какие то манипуляции строго по одобренному плану. Так у агента меньше шансов исполнить какой то опасный экспромпт!
Экспромптом же "на живую", итеративно работать с ценными данными - это абсурд, "... и отвага"! Еще и аудита устойчивости своей системы не делал: ну кто ж снепшоты так хранит? Если система ненадежная, так там только ИИ не хватало
В общем, система обязана быть отказоустойчивой в том числе к случайному "повреждению" изнутри. И работать надо "устойчивыми" схемами. Ревью архитектуры тем же ИИ агентом не помешает. Пусть он пропишет воможный отка каких то элементов и просчитает последствия. Не все компетентны в таких аналиах, так пользуемся интеллектом под руками. Так будет меньше боли
@deksden_notes
X (formerly Twitter)
Alexey Grigorev (@Al_Grigor) on X
Claude Code wiped our production database with a Terraform command.
It took down the DataTalksClub course platform and 2.5 years of submissions: homework, projects, and leaderboards.
Automated snapshots were gone too.
In the newsletter, I wrote the full…
It took down the DataTalksClub course platform and 2.5 years of submissions: homework, projects, and leaderboards.
Automated snapshots were gone too.
In the newsletter, I wrote the full…
👍5❤🔥2💯2❤1🤔1
Forwarded from iz zi
This media is not supported in your browser
VIEW IN TELEGRAM
Если устали вручную рассылать инвайты в ChatGPT Team, подтверждать регистрации, перелогинивать слоты и потом разбирать, где у кого какой доступ, может пригодиться izTeamSlots.
Это open-source тулза для управления ChatGPT Team слотами с локальным TUI-интерфейсом.
Что умеет:
- ручной логин админа через браузер
- создание слотов по invite flow
- перелогин слотов
- сохранение Codex-сессий
- sync workspace с локальными слотами
- логи и локальные browser profiles
Установка:
npm install -g izteamslots
Репозиторий:
https://github.com/izzzzzi/izTeamSlots
#opensource
Это open-source тулза для управления ChatGPT Team слотами с локальным TUI-интерфейсом.
Что умеет:
- ручной логин админа через браузер
- создание слотов по invite flow
- перелогин слотов
- сохранение Codex-сессий
- sync workspace с локальными слотами
- логи и локальные browser profiles
Установка:
npm install -g izteamslots
Репозиторий:
https://github.com/izzzzzi/izTeamSlots
#opensource
3👍11❤🔥3🙏2🔥1🤔1
⚪️ Codex Security
Жду на посмотреть! Сравню с dd-review ))
Обещают на Business аккаунтах. Хоть какой то доп профит помимо доступа к Pro по сравнению с Plus аккаунтом
🔗 анонс: https://x.com/OpenAIDevs/status/2029983809652035758?s=20
🔗 Блог: https://openai.com/index/codex-security-now-in-research-preview/
▶️ Одно могу сказать точно - умная модель хорошо, но 3 модели в ревью лучше! Я за мульти-модельное ревью (а если еще и с мульти-самплингом..., и выделенное фокусное...)
@deksden_notes
Жду на посмотреть! Сравню с dd-review ))
Обещают на Business аккаунтах. Хоть какой то доп профит помимо доступа к Pro по сравнению с Plus аккаунтом
🔗 анонс: https://x.com/OpenAIDevs/status/2029983809652035758?s=20
🔗 Блог: https://openai.com/index/codex-security-now-in-research-preview/
▶️ Одно могу сказать точно - умная модель хорошо, но 3 модели в ревью лучше! Я за мульти-модельное ревью (а если еще и с мульти-самплингом..., и выделенное фокусное...)
@deksden_notes
X (formerly Twitter)
OpenAI Developers (@OpenAIDevs) on X
We're introducing Codex Security.
An application security agent that helps you secure your codebase by finding vulnerabilities, validating them, and proposing fixes you can review and patch.
Now, teams can focus on the vulnerabilities that matter and ship…
An application security agent that helps you secure your codebase by finding vulnerabilities, validating them, and proposing fixes you can review and patch.
Now, teams can focus on the vulnerabilities that matter and ship…
👍6
⚪️ Раздача Codex для OpenSource
▶️ Если у вас есть "популярный" open source проект - вам могут дать Pro аккаунт на 6 месяцев!
Клозеды выравниваются с Антропиками, у которых тоже такое предложение есть.
🔗 https://developers.openai.com/codex/community/codex-for-oss
🔗 https://openai.com/form/codex-for-oss/
🟢 Записываемся, мэйнтейнеры - и получаем заслуженные плюшки!
@deksden_notes
▶️ Если у вас есть "популярный" open source проект - вам могут дать Pro аккаунт на 6 месяцев!
Клозеды выравниваются с Антропиками, у которых тоже такое предложение есть.
🔗 https://developers.openai.com/codex/community/codex-for-oss
🔗 https://openai.com/form/codex-for-oss/
🟢 Записываемся, мэйнтейнеры - и получаем заслуженные плюшки!
@deksden_notes
Openai
Codex for Open Source | OpenAI Developers
Open-source maintainers can apply for API credits, six months of ChatGPT Pro with Codex, and Codex Security.
👍6❤🔥3🕊2😁1
⚪️ Гугл добавляет кредитов
▶️ Вот чего пишут:
Некоторые подписки, например Google AI Pro, по умолчанию включают кредиты.
В Gemini CLI, если вы превысите дневной лимит на количество запросов, мы предоставим вам возможность использовать ваши кредиты AI для продолжения работы.
Это что-то вроде дополнительного использования или пополнения баланса, которое предоставляется вашим тарифным планом. Так что, если однажды вы достигнете лимита и захотите продолжить работу, вы сможете это сделать!
🔗 https://x.com/JackWoth98/status/2030340988124934225?s=20
@deksden_notes
▶️ Вот чего пишут:
Некоторые подписки, например Google AI Pro, по умолчанию включают кредиты.
В Gemini CLI, если вы превысите дневной лимит на количество запросов, мы предоставим вам возможность использовать ваши кредиты AI для продолжения работы.
Это что-то вроде дополнительного использования или пополнения баланса, которое предоставляется вашим тарифным планом. Так что, если однажды вы достигнете лимита и захотите продолжить работу, вы сможете это сделать!
🔗 https://x.com/JackWoth98/status/2030340988124934225?s=20
@deksden_notes
👌6👍2
⚪️ ChatGPT Skills
Интересно что скиллы заходят все шире: уже к веб приложениям прикручивают! Вроде пока для Business / Edu / ...
Обделены Plus / Pro.
вот чего на сайте есть: https://chatgpt.com/skills
Немного скринов в комментах. Редактировать можно в том числе скрипты в бандле, то есть любой полноценный скилл будет работать, даже со скриптами!
(ц) О, как!..
Комменты, еще: ⬇️
@deksden_notes
Интересно что скиллы заходят все шире: уже к веб приложениям прикручивают! Вроде пока для Business / Edu / ...
Обделены Plus / Pro.
вот чего на сайте есть: https://chatgpt.com/skills
Немного скринов в комментах. Редактировать можно в том числе скрипты в бандле, то есть любой полноценный скилл будет работать, даже со скриптами!
(ц) О, как!..
Комменты, еще: ⬇️
@deksden_notes
1👍8❤5🔥3
⚪️ CC /btw раговорчики
В СС добавили фишку - можно поговорить с СС параллельно с ее работой. Интересная фишка, видится вполне себе востребованной возможностью.
Можно обсудить что то, пока выполняется основная задача, например! тулюз в такой сессии не используется, зато доступен весь текущий контекст.
Кстати, рыжий маскот СС сами антропики называют Clawd. Отжали имя у крабобота! 🧐
@deksden_notes
В СС добавили фишку - можно поговорить с СС параллельно с ее работой. Интересная фишка, видится вполне себе востребованной возможностью.
Можно обсудить что то, пока выполняется основная задача, например! тулюз в такой сессии не используется, зато доступен весь текущий контекст.
Кстати, рыжий маскот СС сами антропики называют Clawd. Отжали имя у крабобота! 🧐
@deksden_notes
🔥10👍6❤1👀1
⚪️ Codex Limit Reset
Очередной! Аттракцион невиданной щедрости продолжается - новые ресеты сделаны, но не ясно пошел ли под ресет бизнес - у меня пока нету на бизнес аккаунтах. Но все в процессе! Ждём-с
@deksden_notes
Очередной! Аттракцион невиданной щедрости продолжается - новые ресеты сделаны, но не ясно пошел ли под ресет бизнес - у меня пока нету на бизнес аккаунтах. Но все в процессе! Ждём-с
@deksden_notes
😁11❤2
⚪️ LLMock : детерминирвоанные ответы модели
Смотрите чего тут сделали - полезная штука, кмк. Сервер, который умеет отдавать запросы по фикстурам, но полностью по апи совместим с настоящими моделями! Очень ценная штука для тестирования. Можно не городить fixture model provider в своем приложении! Удобно и здорово
Эндпоинты в разных стилях апи - и клод, и клозеды.
Можно многопоточно, с нескольких процессов дергать эндпоинты. SSE, тулколы, даже ошибки можно моделировать!
🔗 https://llmock.copilotkit.dev/
Спасибо копилотам
(ц) такое мы ценим
@deksden_notes
Смотрите чего тут сделали - полезная штука, кмк. Сервер, который умеет отдавать запросы по фикстурам, но полностью по апи совместим с настоящими моделями! Очень ценная штука для тестирования. Можно не городить fixture model provider в своем приложении! Удобно и здорово
Эндпоинты в разных стилях апи - и клод, и клозеды.
Можно многопоточно, с нескольких процессов дергать эндпоинты. SSE, тулколы, даже ошибки можно моделировать!
🔗 https://llmock.copilotkit.dev/
Спасибо копилотам
(ц) такое мы ценим
@deksden_notes
1🔥10❤5👍1
⚪️ Gemini Embeddings 2
Новые МУЛЬТИМОДАЛЬНЫЕ эмбеддинги от Гугла. Кушают все - картинки (до 6 штук), видео (120с), аудио, текст само собой (8к), даже мелкие PDFки до 6 страниц
🔗 Почитать блог: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
Что только не придумают, чтобы транскрипт не делать))
И интересно, что технологии развились в момент, когда актуальность немного снизилась - все такие агентный поиск вроде бы точнее. Но - пускай будут! Полезная может быть в хозяцстве весч
🔗 Цена вотпроса тут: https://ai.google.dev/gemini-api/docs/pricing#gemini-embedding-2
🔗 Лимиты: https://aistudio.google.com/rate-limit?timeRange=last-28-days
вроде 1k RPD на free tier
@deksden_notes
Новые МУЛЬТИМОДАЛЬНЫЕ эмбеддинги от Гугла. Кушают все - картинки (до 6 штук), видео (120с), аудио, текст само собой (8к), даже мелкие PDFки до 6 страниц
🔗 Почитать блог: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
Что только не придумают, чтобы транскрипт не делать))
И интересно, что технологии развились в момент, когда актуальность немного снизилась - все такие агентный поиск вроде бы точнее. Но - пускай будут! Полезная может быть в хозяцстве весч
🔗 Цена вотпроса тут: https://ai.google.dev/gemini-api/docs/pricing#gemini-embedding-2
🔗 Лимиты: https://aistudio.google.com/rate-limit?timeRange=last-28-days
вроде 1k RPD на free tier
@deksden_notes
🔥9❤4
⚪️ Codex hooks
Ну вот и вышла 0.144 с поддержкой хуков:
🔗 PR тут: https://github.com/openai/codex/pull/13276
Документации как водится, пока нету. Полезная штука для интеграций, особенно когда разовьют!
С почином! ))
@deksden_notes
Ну вот и вышла 0.144 с поддержкой хуков:
🔗 PR тут: https://github.com/openai/codex/pull/13276
Документации как водится, пока нету. Полезная штука для интеграций, особенно когда разовьют!
С почином! ))
@deksden_notes
GitHub
start of hooks engine by eternal-openai · Pull Request #13276 · openai/codex
(Experimental)
This PR adds a first MVP for hooks, with SessionStart and Stop
The core design is:
hooks live in a dedicated engine under codex-rs/hooks
each hook type has its own event-specific fi...
This PR adds a first MVP for hooks, with SessionStart and Stop
The core design is:
hooks live in a dedicated engine under codex-rs/hooks
each hook type has its own event-specific fi...
🔥14👍4❤2👏2
⚪️ ForgeCode CLi и TerminalBench
Я уже перестал "оглашать весь список" посмотренных мною CLI агентов, потому как он весьма немалый уже, но они все плюс-минус одинаковые.
Но тут очередной агент взобрался в топ терминал-бенча, сместив дроида, и вышла любопытная статейка про их бенчмаксинг:
🔗 Почитать тут: https://forgecode.dev/blog/benchmarks-dont-matter/
Чтобы добавить вам аргументов зачем прочитать статейку - скажу что они сделали top-1 с Gemini 3.1 pro
👉 Gemini! )))
Любопытные наблюдения в чем проблемы. Несколько полезных вещей причерпнуть можно!
Код, кстати, в опенсорс они не отдали в итоге. Но хоть блог написали!
@deksden_notes
Я уже перестал "оглашать весь список" посмотренных мною CLI агентов, потому как он весьма немалый уже, но они все плюс-минус одинаковые.
Но тут очередной агент взобрался в топ терминал-бенча, сместив дроида, и вышла любопытная статейка про их бенчмаксинг:
🔗 Почитать тут: https://forgecode.dev/blog/benchmarks-dont-matter/
Чтобы добавить вам аргументов зачем прочитать статейку - скажу что они сделали top-1 с Gemini 3.1 pro
👉 Gemini! )))
Любопытные наблюдения в чем проблемы. Несколько полезных вещей причерпнуть можно!
Код, кстати, в опенсорс они не отдали в итоге. Но хоть блог написали!
@deksden_notes
❤7👍2
⚪️ Cloudflare Crawl
Немного не по теме, но мне показалось это забавным
Клаудфлёр зарелизил штуку для краулинга сайтов:
🔗 Анонс: https://x.com/CloudflareDev/status/2031488099725754821
🔗 Бложик: https://developers.cloudflare.com/changelog/post/2026-03-10-br-crawl-endpoint/
🔗 Дока: https://developers.cloudflare.com/browser-rendering/rest-api/crawl-endpoint/
👉 Забавное тут следующее: клаудфлёр предоставлял самую неприятную для ботов защиту от автоматического краулинга. И зарелизил самый удобный краулер ))
(ц) странное время!
@deksden_notes
Немного не по теме, но мне показалось это забавным
Клаудфлёр зарелизил штуку для краулинга сайтов:
🔗 Анонс: https://x.com/CloudflareDev/status/2031488099725754821
🔗 Бложик: https://developers.cloudflare.com/changelog/post/2026-03-10-br-crawl-endpoint/
🔗 Дока: https://developers.cloudflare.com/browser-rendering/rest-api/crawl-endpoint/
👉 Забавное тут следующее: клаудфлёр предоставлял самую неприятную для ботов защиту от автоматического краулинга. И зарелизил самый удобный краулер ))
(ц) странное время!
@deksden_notes
😁14🤩8🔥5❤2
⚪️ Upstash Box
Очередной сервис с программируемыми vm, с агентами! Они прямо просятся для встраивания в оркестратор. Надо разобраться - будут ли работать с подпиской кодекса. Думаю, авторизационный файл подсунуть вполне можно
Ценник - 0.1 в час, платим когда работает.
Есть free tier в 5 часов в месяц.
Некий аналог exe.dev
🔗 Дока: https://upstash.com/docs/box/overall/quickstart
🔗Цены: https://upstash.com/pricing/box
🔗 Почитать блог: https://upstash.com/blog/upstash-box
(ц) такое мы пробуем!
@deksden_notes
Очередной сервис с программируемыми vm, с агентами! Они прямо просятся для встраивания в оркестратор. Надо разобраться - будут ли работать с подпиской кодекса. Думаю, авторизационный файл подсунуть вполне можно
Ценник - 0.1 в час, платим когда работает.
Есть free tier в 5 часов в месяц.
Некий аналог exe.dev
🔗 Дока: https://upstash.com/docs/box/overall/quickstart
🔗Цены: https://upstash.com/pricing/box
🔗 Почитать блог: https://upstash.com/blog/upstash-box
(ц) такое мы пробуем!
@deksden_notes
❤5🤔3
⚪️ Попытка сревнения Codex vs Opus в Твиттере
... не удалась! Сразу скажу - мне кажется статья прям полна косяков.
"Не читайте советских газет на ночь!"
Пишу, чтобы предупредить, что в интернетах всякое находится, и иногда это прям уф. Вот и в этом случае так и вышло:
🔗 Пациент тут: https://x.com/Hesamation/status/2031418875946958915?s=20
Автор сравнивает Опуск 4.6 с Кодексом 5.3 (!!!)
Во-первых - wtf? Зачем сравнивать 5.3, когда есть 5.4? Во вторых - почему мы сравниваем не опуса с 5.2 high, а с -codex моделью, которая есть тюн для кодинга, которая слабже в задачках на подумать или планирвоании? omfg. Сравнил бы с соннетом, что ли!..
Горизонт работы? У гпт моделей сейчас заметно дольше - посмотрите на бенчмарки.
СС быстрее? Ну есть же новый режим /fast в кодексе, х1.5 за х2 в токенах. У СС тоже есть, но там за х6 цены и не в подписке, а токены - что по ценам антропиков будет прям космос.
Разные подписки? Тут - да. Но у кодекса легко взять несколько аккаунтов, а лимиты заметно больше на каждом, чем на сопоставимом тарифе антропиков.
Сравнивать агентов по токенам - ну, такое. по мне так надо сравнивать по результатам. Экономить токены, поулчить неработающее решение - эт отратить токены на доведение его до рабочего состояния.
По фичам и экосистеме СС ведет, конечно, но Кодекс неплохо развивается. Основные все фичи имеются.
Сравнить на примере построения RAG - прикольно, но автор же все коряво сделал! Зачем планирвоать -codex моделью? Есть же 5.2 и 5.4 для этого. Думаю, там еще и по процессу куча вопросов! Где план? где закрытие gaps? Где ревью решения или хотя бы рефлексия?
Omfg. Зачем такое писать на публику!
(ц) В общем, не сдержался! Извините, граждане
@deksden_notes
... не удалась! Сразу скажу - мне кажется статья прям полна косяков.
"Не читайте советских газет на ночь!"
Пишу, чтобы предупредить, что в интернетах всякое находится, и иногда это прям уф. Вот и в этом случае так и вышло:
🔗 Пациент тут: https://x.com/Hesamation/status/2031418875946958915?s=20
Автор сравнивает Опуск 4.6 с Кодексом 5.3 (!!!)
Во-первых - wtf? Зачем сравнивать 5.3, когда есть 5.4? Во вторых - почему мы сравниваем не опуса с 5.2 high, а с -codex моделью, которая есть тюн для кодинга, которая слабже в задачках на подумать или планирвоании? omfg. Сравнил бы с соннетом, что ли!..
Горизонт работы? У гпт моделей сейчас заметно дольше - посмотрите на бенчмарки.
СС быстрее? Ну есть же новый режим /fast в кодексе, х1.5 за х2 в токенах. У СС тоже есть, но там за х6 цены и не в подписке, а токены - что по ценам антропиков будет прям космос.
Разные подписки? Тут - да. Но у кодекса легко взять несколько аккаунтов, а лимиты заметно больше на каждом, чем на сопоставимом тарифе антропиков.
Сравнивать агентов по токенам - ну, такое. по мне так надо сравнивать по результатам. Экономить токены, поулчить неработающее решение - эт отратить токены на доведение его до рабочего состояния.
По фичам и экосистеме СС ведет, конечно, но Кодекс неплохо развивается. Основные все фичи имеются.
Сравнить на примере построения RAG - прикольно, но автор же все коряво сделал! Зачем планирвоать -codex моделью? Есть же 5.2 и 5.4 для этого. Думаю, там еще и по процессу куча вопросов! Где план? где закрытие gaps? Где ревью решения или хотя бы рефлексия?
Omfg. Зачем такое писать на публику!
(ц) В общем, не сдержался! Извините, граждане
@deksden_notes
X (formerly Twitter)
ℏεsam (@Hesamation) on X
Claude Code vs. Codex: The Definitive Guide
🔥12😁3👌3❤2