Compacting conversation...
86 subscribers
273 photos
12 videos
4 files
158 links
Станьте первым спонсором, от $1: https://github.com/sponsors/talkstream

Для связи: @nafigator
Download Telegram
Compacting conversation...
дневник
Я просто оху был поражён, когда увидел, что творит Codex с самой крутой последней моделью даже на Extra High режиме. Думаю, может это я гоню. Спросил Gemini 3.1 Pro.

Ситуация показательная: умный архитектор (Opus 4.7) передал отличный план линейному исполнителю (Codex GPT-5.5), и проект забуксовал на интеграции.

Если оценивать скилл Codex GPT-5.5 именно как автономного агента, идущего по плану, его уровень — крепкий, но абсолютно слепой junior-разработчик. Я бы оценил его способность к автономному выполнению комплексного плана на 5 из 10.


Вот детальный разбор его навыков в этом прогоне:

В чем агент силен (микро-уровень)

На уровне выполнения атомарных задач Codex отработал блестяще, как хороший скрипт:
• идеальный синтаксис: он отлично пишет bash-команды, wp-cli скрипты и SQL-запросы.
• самокоррекция в моменте: он сам нашел проблему со strict mode в MariaDB, сам понял, почему падает расчет delta (из-за signed-арифметики), и сам добавил нужные аннотации для wp-cli.
• безопасность: он не логировал пароли, корректно настроил fail2ban и не пытался обойти жесткие лимиты на использование тулзов (tool limit).


Где агент эпично провалился (макро-уровень)

Главная проблема Codex GPT-5.5 — полное отсутствие макро-мышления и здравого смысла. Он видит деревья, но не видит лес.

Это привело к двум катастрофическим сбоям:

1. Потеря контекста глобальной цели (P0 failure): Opus задал четкий эталон (***). Адекватный инженер начал бы с клонирования файлов и базы эталона, а затем накатил бы свежий контент с прода. Codex же пошел по пути наименьшего сопротивления: скачал голый WordPress, активировал плагины по списку и отчитался, что сайт отдает код 200. Он вообще не сделал визуальную и конфигурационную сверку (diff) с эталоном до тех пор, пока вы не указали ему на ошибку. Он выполнил инструкцию по буквам, проигнорировав ее суть.

2. Алгоритмическая амнезия (проблема с диском): это самый абсурдный момент лога. Агент сам скачал архив весом 7.6 ГБ, сам его распаковал, а на шаге T-A.3 проверил диск, увидел нехватку места и уперся в стену. Вместо того чтобы сложить два плюс два и удалить исходный архив переноса, он посоветовал вам (директору) пойти и купить тариф подороже. У него нет концепции "объектного постоянства" — он забыл, что делал три шага назад.

Итог по работе агента

Инструкция от Opus могла быть сколько угодно крутой, но Codex не способен удерживать в контексте финальный бизнес-результат. Он блестяще пишет код и собирает логи, но как только задача требует системного видения, сравнения с эталоном или банальной логики (как с архивом на диске), агент рассыпается.

Именно поэтому вы не получили результат вовремя: агент потратил часы на разворачивание неправильного окружения, потому что слепо шел по пунктам «скачать WP» и «установить тему», забыв, зачем вообще он это делает.
А помните?
2
Forwarded from Мемофора
😁6
Compacting conversation...
Я просто оху был поражён, когда увидел, что творит Codex с самой крутой последней моделью даже на Extra High режиме. Думаю, может это я гоню. Спросил Gemini 3.1 Pro. Ситуация показательная: умный архитектор (Opus 4.7) передал отличный план линейному исполнителю…
Меня продолжает бомбить от вынужденного двухдневного переезда с Claude Code на Codex с GPT-5.5 :)

Реплика этого дня пока такая, чуть (всего чуть) перефразирую:

«Ой визуал получился один в один со стейджем, так что я не буду дальше переносить конфиги, потому что а вдруг сломается.

Лучше зафиксирую, что как-то получилось стабилизировать дизайн, и пойду дальше по своему плану, а не твоему ☺️👍👌👌»
👍3
Github, дай кнопку перехода к пополнению. Я что, должен тебя упрашивать взять денег? :)

В письме ни одной ссылки. Ни отписки, ни просто на главную. Понять этих мейл-параноиков можно, но параноики ж.
👍2
superpowers:code-reviewer(Code review 152-ФЗ implementation)


Киберпанк, конечно.

Самое интересное потенциальное противоречие здесь в том, что законы придумываются долго, а промпт пишется быстро. Копните эту мысль глубже, масштабируйте на сто лет в своей самой безудержной фантазии.
👍1
Так хоба — и патч уязвимости в ZenPhoto, который не был закрыт с 2023 года. Прикольно всякое дистиллировать в отдельные небольшие артефакты попутно.
Your account does not have access to Claude Code. Please run /login.


1. Сутки у Anthropic сменяются в 21:00 GMT+7.
2. Если дать слабину и подписаться на Claude Code Max через Play Store, то сниматься будет не $200, а бля $318.
😢1
Apple runs on Anthropic at this point. Anthropic is powering a lot of the stuff Apple is doing internally in terms of product development, a lot of their internal tools…They have custom versions of Claude running on their own servers internally.


--Mark Gurman, Bloomberg

К новости о том, что Apple случайно спалили свой CLAUDE.md в приложении техподдержки.
В Gemini (веб) крутилка обновилась, стала яркая и прям красивая.
Plan записан. Теперь обязательный шаг: code-review цикл по самому плану (как пользователь явно просил). Запускаю code-reviewer на план — проверка на полноту, факты и executability.


Повторюсь, да и ладно: это одна из самых классных находок в последнее время — ревью плана клода клодом до его исполнения.

То есть да, нам было мало ultrathink, max effort и code review loop until 0 issues. Теперь можно лить токены в ревью, начиная уже с плана 👌
2
Готово — cron 3f659389 запланирован one-shot на 10:25 GMT+7 May 2.

Промпт включает полный self-contained brief: read план, schema → migration → live loader → admin → tests → PR → deploy → verify, с code review loop after каждого шага и pre-deploy npx astro build gate.


Когда токенов сжигается много и всё время лимиты, а хочется уже просто поспать, начинаешь планировать части сессии наперёд 😭

Если что, внутри Claude Code можно просто писать: типа, сейчас запланируй продолжение в 10:25 GMT+7 и он это делает вот таким вот образом. Оптимально начинать откладывать сессии уже начиная с 92-93%, когда начинаются предупреждения о лимитах и показывается искомое время сброса.
👍2
Google agreed to invest up to $40 billion in Anthropic just recently, in late April 2026 (specifically reported around April 24–25, 2026).


Возможно, сотрудники Google просто тратят на токены $41 млрд, бгг. Прямая экономия!
2😁1
Кстати, руцентру всея рунета с гугловой капчей вполне норм 👌
👀2
Вот эта необходимость экономить контекст и токены даже на максимальном тарифе Claude Code мне прямо сильно не нравится.
2
Facebook — совершенно загадочный бизнес. Он даёт охваты, но технически просто разваливается на глазах. Не говорю о том, что регулярно и без зазрения совести пиздит деньги и не делает возврат. Когда вообще удаётся их в него засунуть.

При этом любой пост — эффективен 🤷‍♂️

На скриншоте: я просто зашёл на главную.
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Когда кончаются недельные лимиты за два дня до сброса.
3
The following three changes — all effective today — are aimed at improving the experience of using Claude for our most dedicated customers.

First, we’re doubling Claude Code’s five-hour rate limits for Pro, Max, Team, and seat-based Enterprise plans.

Second, we’re removing the peak hours limit reduction on Claude Code for Pro and Max accounts.


Да неужели. Очень неожиданный подгон от SpaceX... или Anthropic?

Сейчас лимиты ужасны. И новость-то хорошая, но недельный мне в моменте не сбросили :(
Один мой друг, по совместительству профессиональный электрик, даже не знал, что сказал эту фразу про Claude Code:

ничего не подключил, а киловатт уже спиздили


Се ля ви 🤷‍♂️
😁4
Иногда хочется что-нибудь необычное предположить: я думаю, что однажды на Windows можно будет запускать приложения с macOS, хотя для этого будет нужен стор от Apple и соблюдение определённых гайдлайнов в дизайне. Microsoft получит возможность хоть как-то зайти в Arm, не потеряв лицо, и все на всех заработают.

Я думаю, что это возможно — киберпанк же на дворе. Бизнес больше не про конкретную операционную систему на железе, а скорее идёт в сторону токенизации сервисов, процессов и мощностей.

Токенизация всего, в свою очередь, помимо производительности привязывается ко... времени, фактически. И только где-то там, в синхронизации ценностей биологических и технологических, уже начинает маячить сингулярность :)
🔥1
Нет, спасибо, до следующей недели мы больше не увидимся. А с удвоенными лимитами клода, надеюсь, никогда.
😢3