notes of v
357 subscribers
5 photos
1 video
7 links
author: @taymik
Download Telegram
Channel created
🔸 Slopus 4.7 или почему я убежал в Codex 🧑‍💻

В последнее время, думаю, как и абсолютно все, я заметил сильное ухудшение как и качества моделей Anthropic, так и их политику лимитов. (а с недавнего времени - ещё и баны аккаунтов).
Однако даже с такой очень сильной просадкой в dev-experience, я продолжал сидеть на игле под названием Opus 4.7. Утешал я себя тем, что думал что пользуюсь самым лучшим из того, что предлагал рынок и аналогов ему нет. Как же я ошибался!

Критической точкой стало то, что я снова начал промпт-инжинирить агента вместо того, чтобы управлять контекстом (имхо: узкое горлышко современных моделей). Всё чаще диалог выглядел примерно так:
🧑‍💻: Реализуй вот эту задачу: ...
🦀: Сделано!
🧑‍💻: Вообще-то, вот этого и этого у меня не существует, изучи код более внимательно.
🦀: Да, ты абсолютно прав, я это выдумал, основываясь на неймингах в коде. Сейчас посмотрю более подробно...

Ощущалось это, как шаг назад, если честно. 😢

На какое-то время я переехал обратно на Opus 4.6 (до 4.7, когда 4.6 занёрфили, я и вовсе откатывался на 4.5). Что-то стало лучше, но общую картину это не изменило, и я начал искать альтернативы.

Моей первой попыткой стала подписка OpenCode Go 🖥 за 5$, которая предлагала доступ к большому количеству китайцев: GLM, Kimi, Qwen и прочее. Лимиты там скромные, но потыкать и посмотреть - самое то.
Больше всего я работал с Qwen 3.6-plus в связке с SDD через openspec и был удивлён, что по такой скромной цене я получал качество сопоставимое с опусом. Тут-то меня и осенило, что не одним 🍎 един рынок.

И тут выходит GPT-5.5. Поначалу, я не придавал ему внимания: последний раз, когда я основательно использовал модели OpenAI для кодинга, было года полтора назад. Но я всё-таки решился и попробовал.

Запустив 🧑‍💻 Codex в первый раз я был удивлен скорее негативно: cli показался мне слишком простым и скромным. Потребительская привычка велела мне засунуть кодекс в 🦀ClaudeCode через тонну существующих инструментов: omnirouter, ccr, cc-switch и так далее. У меня это получилось, однако я лично не советую так делать 🙅‍♂️ (об этом как-нибудь позже).

По работе я как раз занимался тем, что писал документацию (ранбуки) для очень большого монолита. Модели нужно было сделать очень глубокий и серьезный анализ кода, сходить в соседние репы, юзать скиллы и mcp всяких Jira/Slack/Grafana чтобы обогатится контекстом. В общем, устроил эдакий бенчмарк трём моделькам:
- Опус 4.7
- Опус 4.6
- GPT 5.5

Как вы и догадались, кодекс выдал наилучший результат: он чаще использовал скиллы (это боль, с которой я часто сталкивался с клодом), сразу понял, что он может ошибаться в своих promQL которые получил по анализу кода и перепроверял их через MCP, и самое главное - он лучше всех понял идею и то, что ранбук должен быть точкой входа и пошаговым гайдом при разборе инцидента, а не просто документацией по алерту.
Ради интереса я заставил все 3 модельки сделать ревью ранбуков друг-друга: единогласно все решили, что решение кодекса оказалось лучшим 😂


Ну и парочку киллер-фич, которые я обнаружил:
🔍Если у вас осталось 1-2% лимита, и вы попросили его сделать задачу, он всегда ее закончит, а не бросит посередине и попросит подождать как клод. Поэтому есть смысл давать жирную задачу в конце
🔍OpenAI выпустили плагин, который позволяет вам прямо внутри Claude-Code просить сделать ревью того, что вам написал опус, или делегировать задачу кодексу. Очень полезно, т.к кодекс часто видит то что опус упускает (ну или у вас заканчивается лимиты в клоде)
🔍Команда /goal, которая будет выполнять задачу пока не достигнет поставленной цели. Если в процессе она упрётся в лимит, то сама продолжит после его истечения
🔍Адекватный менеджмент permissions. У ClaudeCode auto-mode для разрешений появился недавно и доступен только в Opus 4.7
🔍Лимиты в несколько раз больше, чем у 🍎 (по моему опыту)

Главным преимуществом Codex 🧑‍💻 для меня оказалось то, что он намного лучше понимает идею и смысл задачи.
Возможно, он не пишет такой же "идеальный" код, как Claude. Но причесать код и сделать его красивее - намного дешевле и быстрее, чем менять его логику. 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍62
Anthropic начнут выдавать ежемесячные кредиты, равной плану самой подписки.

Если сидите на плане за $100, то каждый месяц будете получать по $100 которые можно потратить на SDK usage (claude -p) или другие ништяки 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👎21
День новостей сегодня 🍒

🔍Anthropic увеличивают недельные лимиты до 13 июля
🔍В ответ Альтман дарит 2 месяца использования codex для компаний
🔍Anthropic реализнули свою команду /goal, про которую я писал ранее как одну из фич codex

Ждём agent view в codex 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Андрей Карпатый присоединился к Anthropic 💼
Please open Telegram to view this post
VIEW IN TELEGRAM
Нашёл полезный сервис: Margin Evals Degradation Trackers.

Там ежедневно прогоняют 🎉 Claude Code и 🧑‍💻 Codex на выборке из SWE-Bench-Pro и, помимо pass rate, отслеживают input/output tokens, runtime и количество tool calls.

🔍Важная деталь: запуски идут напрямую через актуальные Claude Code CLI / Codex CLI, без кастомного harness, поэтому метрика ближе к тому, что реально получает пользователь. Если просадка случится из-за изменения модели, CLI, tool-use или чего-то ещё, трекер потенциально это поймает.

🔍Дневной прогон маленький, N=50, поэтому лучше смотреть на недельную и месячную статистику. Сервис отдельно помечает, есть ли статистически значимая деградация (есть свой безопасный трешхолд)

Полезно, если устали гадать, отупел ли снова Opus или Codex, или это вам кажется 😂

🦀 Claude Code: https://marginlab.ai/trackers/claude-code/
🧑‍💻 Codex: https://marginlab.ai/trackers/codex/
Please open Telegram to view this post
VIEW IN TELEGRAM
14
Сделал небольшой плагин, чтобы следить за просадками качества моделей прямо из терминала 🦄

🔍Поддерживает Codex CLI и Claude Code 🧑‍💻🦀
🔍Полностью локально
🔍Не тратит токены

https://github.com/Verce11o/model-degradation-tracker
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106
Вышел Opus 4.8 🎉

🔍Новый effort по умолчанию = high (а не xhigh, как было с Opus 4.7)
🔍Fast режим в 3 раза дешевле чем в прошлых моделях
🔍Цена за токены не изменилась

По обещаниям, должна "в 4 раза реже пропускать собственные ошибки", чтобы это ни значило 👀

https://www.anthropic.com/news/claude-opus-4-8
Please open Telegram to view this post
VIEW IN TELEGRAM
notes of v pinned a photo
Вышел Claude Fable 5 🎉

🔍Самая сильная модель Anthropic из доступных
🔍В 2 раза (!) дороже Опуса
🔍На Pro/Max/Team/Enterprise включена до 22 июня
🔍С 23 июня будет доступна через usage credits (не в подписке!) 😂

Главный нюанс: на чувствительных темах вроде cybersecurity, biology/chemistry или при дистилляции модель будет автоматически переключаться на Opus 4.8 👦

https://www.anthropic.com/news/claude-fable-5-mythos-5
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥72