Compacting conversation...

Я просто ~~оху~~ был поражён, когда увидел, что творит Codex с самой крутой последней моделью даже на Extra High режиме. Думаю, может это я гоню. Спросил Gemini 3.1 Pro.

Ситуация показательная: умный архитектор (Opus 4.7) передал отличный план линейному исполнителю (Codex GPT-5.5), и проект забуксовал на интеграции.

Если оценивать скилл Codex GPT-5.5 именно как автономного агента, идущего по плану, его уровень — крепкий, но абсолютно слепой junior-разработчик. Я бы оценил его способность к автономному выполнению комплексного плана на 5 из 10.

Вот детальный разбор его навыков в этом прогоне:

В чем агент силен (микро-уровень)

На уровне выполнения атомарных задач Codex отработал блестяще, как хороший скрипт:
• идеальный синтаксис: он отлично пишет bash-команды, wp-cli скрипты и SQL-запросы.
• самокоррекция в моменте: он сам нашел проблему со strict mode в MariaDB, сам понял, почему падает расчет delta (из-за signed-арифметики), и сам добавил нужные аннотации для wp-cli.
• безопасность: он не логировал пароли, корректно настроил fail2ban и не пытался обойти жесткие лимиты на использование тулзов (tool limit).

Где агент эпично провалился (макро-уровень)

Главная проблема Codex GPT-5.5 — полное отсутствие макро-мышления и здравого смысла. Он видит деревья, но не видит лес.

Это привело к двум катастрофическим сбоям:

1. Потеря контекста глобальной цели (P0 failure): Opus задал четкий эталон (***). Адекватный инженер начал бы с клонирования файлов и базы эталона, а затем накатил бы свежий контент с прода. Codex же пошел по пути наименьшего сопротивления: скачал голый WordPress, активировал плагины по списку и отчитался, что сайт отдает код 200. Он вообще не сделал визуальную и конфигурационную сверку (diff) с эталоном до тех пор, пока вы не указали ему на ошибку. Он выполнил инструкцию по буквам, проигнорировав ее суть.

2. Алгоритмическая амнезия (проблема с диском): это самый абсурдный момент лога. Агент сам скачал архив весом 7.6 ГБ, сам его распаковал, а на шаге T-A.3 проверил диск, увидел нехватку места и уперся в стену. Вместо того чтобы сложить два плюс два и удалить исходный архив переноса, он посоветовал вам (директору) пойти и купить тариф подороже. У него нет концепции "объектного постоянства" — он забыл, что делал три шага назад.

Итог по работе агента

Инструкция от Opus могла быть сколько угодно крутой, но Codex не способен удерживать в контексте финальный бизнес-результат. Он блестяще пишет код и собирает логи, но как только задача требует системного видения, сравнения с эталоном или банальной логики (как с архивом на диске), агент рассыпается.

Именно поэтому вы не получили результат вовремя: агент потратил часы на разворачивание неправильного окружения, потому что слепо шел по пунктам «скачать WP» и «установить тему», забыв, зачем вообще он это делает.

59 views16:51