В последнее время, думаю, как и абсолютно все, я заметил сильное ухудшение как и качества моделей Anthropic, так и их политику лимитов. (а с недавнего времени - ещё и баны аккаунтов).
Однако даже с такой очень сильной просадкой в dev-experience, я продолжал сидеть на игле под названием Opus 4.7. Утешал я себя тем, что думал что пользуюсь самым лучшим из того, что предлагал рынок и аналогов ему нет. Как же я ошибался!
Критической точкой стало то, что я снова начал промпт-инжинирить агента вместо того, чтобы управлять контекстом (имхо: узкое горлышко современных моделей). Всё чаще диалог выглядел примерно так:
🧑💻 : Реализуй вот эту задачу: ...🦀 : Сделано!🧑💻 : Вообще-то, вот этого и этого у меня не существует, изучи код более внимательно.🦀 : Да, ты абсолютно прав, я это выдумал, основываясь на неймингах в коде. Сейчас посмотрю более подробно...
Ощущалось это, как шаг назад, если честно.
На какое-то время я переехал обратно на Opus 4.6 (до 4.7, когда 4.6 занёрфили, я и вовсе откатывался на 4.5). Что-то стало лучше, но общую картину это не изменило, и я начал искать альтернативы.
Моей первой попыткой стала подписка OpenCode Go
Больше всего я работал с Qwen 3.6-plus в связке с SDD через openspec и был удивлён, что по такой скромной цене я получал качество сопоставимое с опусом. Тут-то меня и осенило, что не одним
И тут выходит GPT-5.5. Поначалу, я не придавал ему внимания: последний раз, когда я основательно использовал модели OpenAI для кодинга, было года полтора назад. Но я всё-таки решился и попробовал.
Запустив
По работе я как раз занимался тем, что писал документацию (ранбуки) для очень большого монолита. Модели нужно было сделать очень глубокий и серьезный анализ кода, сходить в соседние репы, юзать скиллы и mcp всяких Jira/Slack/Grafana чтобы обогатится контекстом. В общем, устроил эдакий бенчмарк трём моделькам:
- Опус 4.7
- Опус 4.6
- GPT 5.5
Как вы и догадались, кодекс выдал наилучший результат: он чаще использовал скиллы (это боль, с которой я часто сталкивался с клодом), сразу понял, что он может ошибаться в своих promQL которые получил по анализу кода и перепроверял их через MCP, и самое главное - он лучше всех понял идею и то, что ранбук должен быть точкой входа и пошаговым гайдом при разборе инцидента, а не просто документацией по алерту.
Ради интереса я заставил все 3 модельки сделать ревью ранбуков друг-друга: единогласно все решили, что решение кодекса оказалось лучшим😂
Ну и парочку киллер-фич, которые я обнаружил:
Главным преимуществом Codex
Возможно, он не пишет такой же "идеальный" код, как Claude. Но причесать код и сделать его красивее - намного дешевле и быстрее, чем менять его логику.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍6⚡2
Anthropic начнут выдавать ежемесячные кредиты, равной плану самой подписки.
Если сидите на плане за $100, то каждый месяц будете получать по $100 которые можно потратить на SDK usage (claude -p) или другие ништяки🎉
Если сидите на плане за $100, то каждый месяц будете получать по $100 которые можно потратить на SDK usage (claude -p) или другие ништяки
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👎2❤1
День новостей сегодня 🍒
🔍 Anthropic увеличивают недельные лимиты до 13 июля
🔍 В ответ Альтман дарит 2 месяца использования codex для компаний
🔍 Anthropic реализнули свою команду /goal, про которую я писал ранее как одну из фич codex
Ждём agent view в codex😂
Ждём agent view в codex
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Please open Telegram to view this post
VIEW IN TELEGRAM
Нашёл полезный сервис: Margin Evals Degradation Trackers.
Там ежедневно прогоняют🎉 Claude Code и 🧑💻 Codex на выборке из SWE-Bench-Pro и, помимо pass rate, отслеживают input/output tokens, runtime и количество tool calls.
🔍 Важная деталь: запуски идут напрямую через актуальные Claude Code CLI / Codex CLI, без кастомного harness, поэтому метрика ближе к тому, что реально получает пользователь. Если просадка случится из-за изменения модели, CLI, tool-use или чего-то ещё, трекер потенциально это поймает.
🔍 Дневной прогон маленький, N=50, поэтому лучше смотреть на недельную и месячную статистику. Сервис отдельно помечает, есть ли статистически значимая деградация (есть свой безопасный трешхолд)
Полезно, если устали гадать, отупел ли снова Opus или Codex, или это вам кажется😂
🦀 Claude Code: https://marginlab.ai/trackers/claude-code/
🧑💻 Codex: https://marginlab.ai/trackers/codex/
Там ежедневно прогоняют
Полезно, если устали гадать, отупел ли снова Opus или Codex, или это вам кажется
Please open Telegram to view this post
VIEW IN TELEGRAM
marginlab.ai
Claude Code Opus 4.8 Performance Tracker | Marginlab
Track Claude Code's daily performance on SWE-Bench-Pro. Monitor Opus 4.8 baseline collection before degradation detection resumes.
❤14
Сделал небольшой плагин, чтобы следить за просадками качества моделей прямо из терминала 🦄
🔍 Поддерживает Codex CLI и Claude Code 🧑💻 🦀
🔍 Полностью локально
🔍 Не тратит токены
https://github.com/Verce11o/model-degradation-tracker
https://github.com/Verce11o/model-degradation-tracker
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤6
Вышел Opus 4.8 🎉
🔍 Новый effort по умолчанию = high (а не xhigh, как было с Opus 4.7)
🔍 Fast режим в 3 раза дешевле чем в прошлых моделях
🔍 Цена за токены не изменилась
По обещаниям, должна "в 4 раза реже пропускать собственные ошибки", чтобы это ни значило👀
https://www.anthropic.com/news/claude-opus-4-8
По обещаниям, должна "в 4 раза реже пропускать собственные ошибки", чтобы это ни значило
https://www.anthropic.com/news/claude-opus-4-8
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic
Introducing Claude Opus 4.8
Our latest model, Claude Opus 4.8, is an upgrade to our Opus class of models, with stronger performance across coding, agentic tasks, and professional work, and the consistency to handle long-running work.
Вышел Claude Fable 5 🎉
🔍 Самая сильная модель Anthropic из доступных
🔍 В 2 раза (!) дороже Опуса
🔍 На Pro/Max/Team/Enterprise включена до 22 июня
🔍 С 23 июня будет доступна через usage credits (не в подписке!) 😂
Главный нюанс: на чувствительных темах вроде cybersecurity, biology/chemistry или при дистилляции модель будет автоматически переключаться на Opus 4.8👦
https://www.anthropic.com/news/claude-fable-5-mythos-5
Главный нюанс: на чувствительных темах вроде cybersecurity, biology/chemistry или при дистилляции модель будет автоматически переключаться на Opus 4.8
https://www.anthropic.com/news/claude-fable-5-mythos-5
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic
Claude Fable 5 and Claude Mythos 5
Today we’re launching Claude Fable 5: a Mythos-class model that we’ve made safe for general use.
🔥7❤2