notes of v

Channel created

14:39

🔸

Slopus 4.7 или почему я убежал в Codex

🧑‍💻

В последнее время, думаю, как и абсолютно все, я заметил сильное ухудшение как и качества моделей Anthropic, так и их политику лимитов. (а с недавнего времени - ещё и баны аккаунтов).
Однако даже с такой очень сильной просадкой в dev-experience, я продолжал сидеть на игле под названием Opus 4.7. Утешал я себя тем, что думал что пользуюсь самым лучшим из того, что предлагал рынок и аналогов ему нет. Как же я ошибался!

Критической точкой стало то, что я снова начал промпт-инжинирить агента вместо того, чтобы управлять контекстом (имхо: узкое горлышко современных моделей). Всё чаще диалог выглядел примерно так:

🧑‍💻: Реализуй вот эту задачу: ...
🦀: Сделано!
🧑‍💻: Вообще-то, вот этого и этого у меня не существует, изучи код более внимательно.
🦀: Да, ты абсолютно прав, я это выдумал, основываясь на неймингах в коде. Сейчас посмотрю более подробно...

Ощущалось это, как шаг назад, если честно. 😢

На какое-то время я переехал обратно на Opus 4.6 (до 4.7, когда 4.6 занёрфили, я и вовсе откатывался на 4.5). Что-то стало лучше, но общую картину это не изменило, и я начал искать альтернативы.

Моей первой попыткой стала подписка OpenCode Go 🖥 за 5$, которая предлагала доступ к большому количеству китайцев: GLM, Kimi, Qwen и прочее. Лимиты там скромные, но потыкать и посмотреть - самое то.
Больше всего я работал с Qwen 3.6-plus в связке с SDD через openspec и был удивлён, что по такой скромной цене я получал качество сопоставимое с опусом. Тут-то меня и осенило, что не одним 🍎 един рынок.

И тут выходит GPT-5.5. Поначалу, я не придавал ему внимания: последний раз, когда я основательно использовал модели OpenAI для кодинга, было года полтора назад. Но я всё-таки решился и попробовал.

Запустив 🧑‍💻 Codex в первый раз я был удивлен скорее негативно: cli показался мне слишком простым и скромным. Потребительская привычка велела мне засунуть кодекс в 🦀ClaudeCode через тонну существующих инструментов: omnirouter, ccr, cc-switch и так далее. У меня это получилось, однако я лично не советую так делать 🙅‍♂️ (об этом как-нибудь позже).

По работе я как раз занимался тем, что писал документацию (ранбуки) для очень большого монолита. Модели нужно было сделать очень глубокий и серьезный анализ кода, сходить в соседние репы, юзать скиллы и mcp всяких Jira/Slack/Grafana чтобы обогатится контекстом. В общем, устроил эдакий бенчмарк трём моделькам:
- Опус 4.7
- Опус 4.6
- GPT 5.5

Как вы и догадались, кодекс выдал наилучший результат: он чаще использовал скиллы (это боль, с которой я часто сталкивался с клодом), сразу понял, что он может ошибаться в своих promQL которые получил по анализу кода и перепроверял их через MCP, и самое главное - он лучше всех понял идею и то, что ранбук должен быть точкой входа и пошаговым гайдом при разборе инцидента, а не просто документацией по алерту.

Ради интереса я заставил все 3 модельки сделать ревью ранбуков друг-друга: единогласно все решили, что решение кодекса оказалось лучшим 😂

Ну и парочку киллер-фич, которые я обнаружил:
🔍Если у вас осталось 1-2% лимита, и вы попросили его сделать задачу, он всегда ее закончит, а не бросит посередине и попросит подождать как клод. Поэтому есть смысл давать жирную задачу в конце
🔍OpenAI выпустили плагин, который позволяет вам прямо внутри Claude-Code просить сделать ревью того, что вам написал опус, или делегировать задачу кодексу. Очень полезно, т.к кодекс часто видит то что опус упускает (ну или у вас заканчивается лимиты в клоде)
🔍Команда /goal, которая будет выполнять задачу пока не достигнет поставленной цели. Если в процессе она упрётся в лимит, то сама продолжит после его истечения
🔍Адекватный менеджмент permissions. У ClaudeCode auto-mode для разрешений появился недавно и доступен только в Opus 4.7
🔍Лимиты в несколько раз больше, чем у 🍎 (по моему опыту)

Главным преимуществом Codex 🧑‍💻 для меня оказалось то, что он намного лучше понимает идею и смысл задачи.
Возможно, он не пишет такой же "идеальный" код, как Claude. Но причесать код и сделать его красивее - намного дешевле и быстрее, чем менять его логику. 🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18👍6⚡2

3.73K viewsedited 11:30

notes of v

Anthropic начнут выдавать ежемесячные кредиты, равной плану самой подписки.

Если сидите на плане за $100, то каждый месяц будете получать по $100 которые можно потратить на SDK usage (claude -p) или другие ништяки 🎉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👎2❤1

664 viewsedited 19:03

notes of v

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

День новостей сегодня 🍒

🔍Anthropic увеличивают недельные лимиты до 13 июля
🔍В ответ Альтман дарит 2 месяца использования codex для компаний
🔍Anthropic реализнули свою команду /goal, про которую я писал ранее как одну из фич codex

Ждём agent view в codex 😂

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5

835 views19:50

notes of v

Андрей Карпатый присоединился к Anthropic 💼

Please open Telegram to view this post

VIEW IN TELEGRAM

594 views15:41

notes of v

Нашёл полезный сервис: Margin Evals Degradation Trackers.

Там ежедневно прогоняют 🎉 Claude Code и 🧑‍💻 Codex на выборке из SWE-Bench-Pro и, помимо pass rate, отслеживают input/output tokens, runtime и количество tool calls.

🔍

Важная деталь: запуски идут напрямую через актуальные Claude Code CLI / Codex CLI, без кастомного harness, поэтому метрика ближе к тому, что реально получает пользователь. Если просадка случится из-за изменения модели, CLI, tool-use или чего-то ещё, трекер потенциально это поймает.

🔍

Дневной прогон маленький, N=50, поэтому лучше смотреть на недельную и месячную статистику. Сервис отдельно помечает, есть ли статистически значимая деградация (есть свой безопасный трешхолд)

Полезно, если устали гадать, отупел ли снова Opus или Codex, или это вам кажется 😂

🦀

Claude Code: https://marginlab.ai/trackers/claude-code/

🧑‍💻

Codex: https://marginlab.ai/trackers/codex/

Please open Telegram to view this post

VIEW IN TELEGRAM

marginlab.ai

Claude Code Opus 4.8 Performance Tracker | Marginlab

Track Claude Code's daily performance on SWE-Bench-Pro. Monitor Opus 4.8 baseline collection before degradation detection resumes.

❤14

3.53K views18:32

notes of v

Сделал небольшой плагин, чтобы следить за просадками качества моделей прямо из терминала 🦄

🔍Поддерживает Codex CLI и Claude Code 🧑‍💻

🦀

🔍Полностью локально
🔍Не тратит токены

https://github.com/Verce11o/model-degradation-tracker

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤6

528 views19:35

notes of v

Вышел Opus 4.8 🎉

🔍Новый effort по умолчанию = high (а не xhigh, как было с Opus 4.7)
🔍Fast режим в 3 раза дешевле чем в прошлых моделях
🔍Цена за токены не изменилась

По обещаниям, должна "в 4 раза реже пропускать собственные ошибки", чтобы это ни значило 👀

https://www.anthropic.com/news/claude-opus-4-8

Please open Telegram to view this post

VIEW IN TELEGRAM

Anthropic

Introducing Claude Opus 4.8

Our latest model, Claude Opus 4.8, is an upgrade to our Opus class of models, with stronger performance across coding, agentic tasks, and professional work, and the consistency to handle long-running work.

522 views17:00

notes of v

notes of v pinned a photo

17:01

notes of v

Вышел Claude Fable 5 🎉

🔍Самая сильная модель Anthropic из доступных
🔍В 2 раза (!) дороже Опуса
🔍На Pro/Max/Team/Enterprise включена до 22 июня
🔍С 23 июня будет доступна через usage credits (не в подписке!) 😂

Главный нюанс: на чувствительных темах вроде cybersecurity, biology/chemistry или при дистилляции модель будет автоматически переключаться на Opus 4.8 👦

https://www.anthropic.com/news/claude-fable-5-mythos-5

Please open Telegram to view this post

VIEW IN TELEGRAM

Anthropic

Claude Fable 5 and Claude Mythos 5

Today we’re launching Claude Fable 5: a Mythos-class model that we’ve made safe for general use.

🔥7❤2

2.68K views17:09

About

Blog

Apps

Platform