Нашел в OpenAI группировку по неделям
Ну как видим, меньше токенов на подписку Plus давать не стали.
Скорее даже больше, потому что не забываю их использовать ;)
А вот эта акция, в которой давали удвоенные лимиты для Codex App - вот это походу лохотрон (ну или не совсем ясно, как проверять).
https://chatgpt.com/codex/cloud/settings/analytics#usage
Ну как видим, меньше токенов на подписку Plus давать не стали.
Скорее даже больше, потому что не забываю их использовать ;)
А вот эта акция, в которой давали удвоенные лимиты для Codex App - вот это походу лохотрон (ну или не совсем ясно, как проверять).
https://chatgpt.com/codex/cloud/settings/analytics#usage
Новые команды в Claude Code
/ultraplan — это команда в Claude Code для уточнения и доработки плана с помощью облачного много-агентного анализа
/ultrareview - тоже самое для ревью
И разобраться в этом действительно не просто.
/ultraplan — это команда в Claude Code для уточнения и доработки плана с помощью облачного много-агентного анализа
/ultrareview - тоже самое для ревью
И разобраться в этом действительно не просто.
/ultraplan — это команда в Claude Code для уточнения и доработки плана с помощью облачного много-агентного анализа
Это как /ultrareview, только для планирования, а не для ревью.
Что делает:
- Отправляет план в облачную сессию (Remote Control), где параллельно работают несколько агентов
- Агенты критикуют план, ищут пропущенные edge cases, проверяют архитектурные решения, предлагают улучшения
- Возвращает уточнённый, более продуманный план
Когда полезна:
- Для сложных задач с неочевидными последствиями (миграции БД, рефакторинг, security-чувствительные изменения)
- Когда хочется получить «второе мнение» на план до начала реализации
- При работе над фичами, где цена ошибки в архитектуре высока
Требования:
- Нужен авторизованный аккаунт claude.ai (Pro/Max/Team/Enterprise) — gateway/3rd-party providers (Bedrock/Vertex/Foundry) не поддерживаются
- Создаётся облачное окружение автоматически (с версии 2.1.101)
Чтобы это заработало нужно:
1. Чтобы было создан репо на гите
2. Нужно установить приложение CC в репо /install-github-app
Иначе будет ошибка:
Если и это не помогает, тогда claude auth login из консоли - известный баг СС
В release notes упоминалась в 2.1.111 как часть улучшений /ultrareview, и в 2.1.113 ("Refine with Ultraplan" в plan mode UI). По сути это «/ultrareview, но для планов вместо кода».
Это как /ultrareview, только для планирования, а не для ревью.
Что делает:
- Отправляет план в облачную сессию (Remote Control), где параллельно работают несколько агентов
- Агенты критикуют план, ищут пропущенные edge cases, проверяют архитектурные решения, предлагают улучшения
- Возвращает уточнённый, более продуманный план
Когда полезна:
- Для сложных задач с неочевидными последствиями (миграции БД, рефакторинг, security-чувствительные изменения)
- Когда хочется получить «второе мнение» на план до начала реализации
- При работе над фичами, где цена ошибки в архитектуре высока
Требования:
- Нужен авторизованный аккаунт claude.ai (Pro/Max/Team/Enterprise) — gateway/3rd-party providers (Bedrock/Vertex/Foundry) не поддерживаются
- Создаётся облачное окружение автоматически (с версии 2.1.101)
Чтобы это заработало нужно:
1. Чтобы было создан репо на гите
2. Нужно установить приложение CC в репо /install-github-app
Иначе будет ошибка:
ultraplan: cannot launch remote session —
The Claude GitHub app must be installed on this repository first.
https://github.com/apps/claude/installations/new
Если и это не помогает, тогда claude auth login из консоли - известный баг СС
В release notes упоминалась в 2.1.111 как часть улучшений /ultrareview, и в 2.1.113 ("Refine with Ultraplan" в plan mode UI). По сути это «/ultrareview, но для планов вместо кода».
После успешного запуска /ultraplan
1. Нажмите вниз и перейдите в вебверсию, чтобы ответить на вопросы.
2. Вопросов как правило только три:
• Revise... (esc)
• Вернуть обратно в терминал (на десктоп) - чтобы работать как обычно
• Принять (cmd + Enter) - для облачной реализации
После принятия удаленного выполнения реализация идет на claude.ai/code. Результат придёт в виде pull request, когда сессия завершится.
Будущее наступило да\нет?
1. Нажмите вниз и перейдите в вебверсию, чтобы ответить на вопросы.
2. Вопросов как правило только три:
• Revise... (esc)
• Вернуть обратно в терминал (на десктоп) - чтобы работать как обычно
• Принять (cmd + Enter) - для облачной реализации
После принятия удаленного выполнения реализация идет на claude.ai/code. Результат придёт в виде pull request, когда сессия завершится.
Будущее наступило да\нет?
👍1
Небольшой обзор Codex plugin for Claude Code
Что умеет? Да почти ничего:
• Делает ревью
• Управляемый обзор проблем
• Какие задачи /codex:status
• Результат задачи /codex:result
• Отмена задачи /codex:cancel
Если вам лень переключать туда сюда, то можно поставить. Еще можно
Поставить очень просто, инструкция есть в Ридми:
Добавьте ОпенАЙ маркетплейс:
Установите:
Перегрузите:
Проверьте работает ли:
https://github.com/openai/codex-plugin-cc
Что умеет? Да почти ничего:
• Делает ревью
/codex:review• Управляемый обзор проблем
/codex:adversarial-review
• Поиск багов /codex:rescue• Какие задачи /codex:status
• Результат задачи /codex:result
• Отмена задачи /codex:cancel
Если вам лень переключать туда сюда, то можно поставить. Еще можно
/codex:setup --enable-review-gate — если нужен обязательный review перед завершением сессии.Поставить очень просто, инструкция есть в Ридми:
Добавьте ОпенАЙ маркетплейс:
/plugin marketplace add openai/codex-plugin-ccУстановите:
/plugin install codex@openai-codexПерегрузите:
/reload-pluginsПроверьте работает ли:
/codex:setuphttps://github.com/openai/codex-plugin-cc
GitHub
GitHub - openai/codex-plugin-cc: Use Codex from Claude Code to review code or delegate tasks.
Use Codex from Claude Code to review code or delegate tasks. - openai/codex-plugin-cc
❤1👍1🔥1
Ребят, вы просили GPT-5.5
Я все еще тестирую!
Такие мощные модели, их уже простой Нокией 3310 не возьмешь.
Кстати, приятно, что из 358 кто просмотрел пост, почти 30% приняли участие в опросе!
Я все еще тестирую!
Такие мощные модели, их уже простой Нокией 3310 не возьмешь.
Кстати, приятно, что из 358 кто просмотрел пост, почти 30% приняли участие в опросе!
👍2
Вышел релиз 0.2.2 этой моей Контент Фабрики
А чего так долго?
• Я 2 недели тупо правил баги. Было исправлено 4 мажорных бага.
Так что, если вы еще не пробовали - это, кстати, повод попробоватаь, потому что, до этого оно вообще как бы не работало.
https://github.com/axisrow/tg_content_factory/releases/tag/v0.2.2
А чего так долго?
• Я 2 недели тупо правил баги. Было исправлено 4 мажорных бага.
Так что, если вы еще не пробовали - это, кстати, повод попробоватаь, потому что, до этого оно вообще как бы не работало.
https://github.com/axisrow/tg_content_factory/releases/tag/v0.2.2
GitHub
Release v0.2.2 — Production Stability — Flood Wait Rotation, Auth Reliability & Web/Worker Sync · axisrow/tg_content_factory
What's Changed
🚀 Features
feat: add Telegram worker runtime with command dispatching by @axisrow in #452
🐛 Fixes
fix: support non-ASCII passwords in login and Basic Auth by @Copilot in #431
...
🚀 Features
feat: add Telegram worker runtime with command dispatching by @axisrow in #452
🐛 Fixes
fix: support non-ASCII passwords in login and Basic Auth by @Copilot in #431
...
1❤3
OpenAI добавили Codex в контрибуторы
Это произошло! Наконец-то бесплатная реклама и у @sama
Ну ждем Gemini - они дольше всех у нас запрягают.
Это произошло! Наконец-то бесплатная реклама и у @sama
Ну ждем Gemini - они дольше всех у нас запрягают.
🔥2
Media is too big
VIEW IN TELEGRAM
Посмотрите, какую игру в Змейка сделал Opus 4.7
Промпт:
Claude Code задает несколько вопросов, типа как должен лежать телефон на дне аквариума, и должен ли он работать под водой.
Все сделано 1 шотом, без всяких там, протестируй, исправь ошибки и доделай.
Кроме того, что аквариум отбрасывает какие-то странные тени, и у рыб нет хвостовых плавников, у меня особо замечаний нет.
Сколько же токенов на это ушло:
Session
Total cost: $8.78
Total duration (API): 18m 8s
Total code changes: 1878 lines added, 56 lines removed
Usage by model:
claude-haiku-4-5: 10.2k input, 910 output, 0 cache read, 0 cache write ($0.0147)
claude-opus-4-7: 204 input, 72.3k output, 8.0m cache read, 471.9k cache write ($8.77)
Теперь можно попробовать этот промпт с GPT-5.5 и сравнить, только рекомендую ставить xhigh т.к. обычного medium для такого задания будет явно маловато. Ну и скоро будет понятно, этот GLM-5.1 так же хорош, как Опус или нет.
Промпт:
Создай с нуля вот этот проект: https://raw.githubusercontent.com/chillqoder/mimo-v2.5-pro-/refs/heads/main/3d/3d-aquarium-prompt.md
а там внутри на дне лежит: https://github.com/axisrow/tests/blob/main/nokia_3310_3d.md - при нажатии клавиш телефона - фокус на экране телефонаClaude Code задает несколько вопросов, типа как должен лежать телефон на дне аквариума, и должен ли он работать под водой.
Все сделано 1 шотом, без всяких там, протестируй, исправь ошибки и доделай.
Кроме того, что аквариум отбрасывает какие-то странные тени, и у рыб нет хвостовых плавников, у меня особо замечаний нет.
Сколько же токенов на это ушло:
Session
Total cost: $8.78
Total duration (API): 18m 8s
Total code changes: 1878 lines added, 56 lines removed
Usage by model:
claude-haiku-4-5: 10.2k input, 910 output, 0 cache read, 0 cache write ($0.0147)
claude-opus-4-7: 204 input, 72.3k output, 8.0m cache read, 471.9k cache write ($8.77)
Теперь можно попробовать этот промпт с GPT-5.5 и сравнить, только рекомендую ставить xhigh т.к. обычного medium для такого задания будет явно маловато. Ну и скоро будет понятно, этот GLM-5.1 так же хорош, как Опус или нет.
🔥4🤯2🤣2
This media is not supported in your browser
VIEW IN TELEGRAM
Ребята, Ребята, посмотрите, какую игру в Змейка сделал GLM-5.1
Китайский производитель уверяет, что это тоже самое, что и Opus, но только чуть хуже (кстати, сравнение с Опусом с сайта z.ai убрали - и это правильно)
Промпт:
будет чуть позже, ибо ну слишком длинный.
Сейчас будет немного сложный для меня пост, потому что не дотестил до конца, но достало. Сделал раза 4, а не 5. Работает этот GLM-5.1 намного медленнее, чем Opus 4.7. То что Опус делает за 18 минут и пишет 1519 строк кода, 5.1 делает за 1 часа и 8 минут, и при этом пишет от 677 до 1443 кода (это уж как повезет).
И это нифига не работает, т.к. для тестирования таких решений такие мощные модели, как GPT-5.5 открывают встроенный Computer Use тестируют это прямо в браузере (у Опуса для этого вообще есть Хром плагин). А у GLM-5.1 есть инструкция - тестировать это в Playwrite. Спрашивают, ты тестировал? Он отвечает - НЕТ!.
Но главная правда в том, что этот GLM-5.1 он немного подслеповат. И об этом вообще говорить не принято, производитель прямо пишет об отсутствии мультимодальности (так вот зачем это было нужно).
И тут у него просто заканчивается контекстное окно. Хотя до этого в 100-150к токенов он укладывался.
Достало.
Ждешь 1-2 часа экран телефона просто не включается.
Почему так? Вот как так можно написать:
• Змейку
• СМС
• Рингтон
что они работают, но экран не включается?
А очень просто!
Дело в том, что двухмерный canvas экрана расположен под поверхностью корпуса телефона. GPT-5.5 и Opus 4.7 это на изи понимают, и делают все с одного шота правильно. Но наш китайский друг в этом месте начинает "тупить".
Так что, остается отметить:
• Песка нет
• То что телефон не лежит на дне - это пофигу
• Рыбы плавают задом наперед (это кстати проблема не только этой модели)
• Ну и на качество выполнения рыб остается просто закрыть глаза.
На этом тестирование это модели предлагаю заканчивать.
Китайский производитель уверяет, что это тоже самое, что и Opus, но только чуть хуже (кстати, сравнение с Опусом с сайта z.ai убрали - и это правильно)
Промпт:
Сейчас будет немного сложный для меня пост, потому что не дотестил до конца, но достало. Сделал раза 4, а не 5. Работает этот GLM-5.1 намного медленнее, чем Opus 4.7. То что Опус делает за 18 минут и пишет 1519 строк кода, 5.1 делает за 1 часа и 8 минут, и при этом пишет от 677 до 1443 кода (это уж как повезет).
И это нифига не работает, т.к. для тестирования таких решений такие мощные модели, как GPT-5.5 открывают встроенный Computer Use тестируют это прямо в браузере (у Опуса для этого вообще есть Хром плагин). А у GLM-5.1 есть инструкция - тестировать это в Playwrite. Спрашивают, ты тестировал? Он отвечает - НЕТ!.
Но главная правда в том, что этот GLM-5.1 он немного подслеповат. И об этом вообще говорить не принято, производитель прямо пишет об отсутствии мультимодальности (так вот зачем это было нужно).
И тут у него просто заканчивается контекстное окно. Хотя до этого в 100-150к токенов он укладывался.
Достало.
Ждешь 1-2 часа экран телефона просто не включается.
Почему так? Вот как так можно написать:
• Змейку
• СМС
• Рингтон
что они работают, но экран не включается?
А очень просто!
Дело в том, что двухмерный canvas экрана расположен под поверхностью корпуса телефона. GPT-5.5 и Opus 4.7 это на изи понимают, и делают все с одного шота правильно. Но наш китайский друг в этом месте начинает "тупить".
Так что, остается отметить:
• Песка нет
• То что телефон не лежит на дне - это пофигу
• Рыбы плавают задом наперед (это кстати проблема не только этой модели)
• Ну и на качество выполнения рыб остается просто закрыть глаза.
На этом тестирование это модели предлагаю заканчивать.
🔥4❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Посмотрите, какую игру в Змейка сделал GPT-5.5-xhigh
Промпт:
Теперь можно сравнить, Opus 4.7 делает все "идеально", у GPT-5.5:
• Рыбы плавают вверх тормашками
• Полоски на рыбах реализованы хуже, чем у Опуса, но зато у рыб есть хвостовой плавник - тут 1:1
• Телефон торчит из аквариума (сколько я его тестировал, он всегда торчал)
Мое мнение, что GPT-5.5 делает более небрежно, это при том, что стоит дороже. И делает все намного дольше. Если вы поставите не xhigh то еще на изи перепутает, и поставит экран телефону вверх тормашками.
А что по токенам:
Строк кода: 1436
Token usage: total=329 482 input=283 637 (+ 6 677 248 cached) output=45 845 (reasoning 15 565)
У Codex время сессии не знаю как посмотреть - сколько времени ушло на реализацию статистики особо нет.
т.е. Opus. 4.7 потратил 72.3k токенов vs 45.8к - что почти в 2 раза экономичнее! Но качество реализации тоже хуже!
Т.е. если вы хотите делать:
• Долго
• Экономично
• И эстетически хуже
То имеет смысл выбирать GPT-5.5
Ну а если вы бояре, и денег у вас немеряно - то конечно Opus 4.7, тут пока альтернатив особо нет.
Промпт:
Создай с нуля вот этот проект: https://raw.githubusercontent.com/chillqoder/mimo-v2.5-pro-/refs/heads/main/3d/3d-aquarium-prompt.md
а там внутри на дне лежит: https://github.com/axisrow/tests/blob/main/nokia_3310_3d.md - при нажатии клавиш телефона - фокус на экране телефонаТеперь можно сравнить, Opus 4.7 делает все "идеально", у GPT-5.5:
• Рыбы плавают вверх тормашками
• Полоски на рыбах реализованы хуже, чем у Опуса, но зато у рыб есть хвостовой плавник - тут 1:1
• Телефон торчит из аквариума (сколько я его тестировал, он всегда торчал)
Мое мнение, что GPT-5.5 делает более небрежно, это при том, что стоит дороже. И делает все намного дольше. Если вы поставите не xhigh то еще на изи перепутает, и поставит экран телефону вверх тормашками.
А что по токенам:
Строк кода: 1436
Token usage: total=329 482 input=283 637 (+ 6 677 248 cached) output=45 845 (reasoning 15 565)
У Codex время сессии не знаю как посмотреть - сколько времени ушло на реализацию статистики особо нет.
т.е. Opus. 4.7 потратил 72.3k токенов vs 45.8к - что почти в 2 раза экономичнее! Но качество реализации тоже хуже!
Т.е. если вы хотите делать:
• Долго
• Экономично
• И эстетически хуже
То имеет смысл выбирать GPT-5.5
Ну а если вы бояре, и денег у вас немеряно - то конечно Opus 4.7, тут пока альтернатив особо нет.
👍2❤1
Обновление рейтинга arena.ai
GPT-5.5-high набрал "фантастические" 1500 баллов, что на уровне Opus 4.5 и на 43 балла выше, чем GPT-5.4-high (1457 elo)
Ну это полный провал. Даже muse-spark 1510 elo набирает, я уже про несчастный Sonnet 4.6 молчу с жалкими 1525 elo. Но скажем, GPT-5.5-high хорошо хоть на 9 место попал.
gemini-3.1-pro-preview - вообще на 15 месте с 1456 elo
Какие у нас еще есть конкуренты?
deepseek-v4-pro-thinking - 1455 elo по цене $0.87/1M - называется кодирую за копейки, только вот контекстное окно у него 1М против 255К у GPT-5.5 (разница с G 3.1 Pro в один балл)
Там еще в хвосте плетется minimax-m2.7 с 1413 elo и $1.20\1M
На май 2026 года ситуация в рейтигах сложилась крайне неоднозначная. Я конечно делаю свои собственные тесты, и может недели через 2 представлю вам свою собственную "турнирную таблицу".
Еще отмечу, что arena.ai убрали из выбора все дорогие модели старше GPT-5.3-codex
т.е. GLM-5.1 и Kimi-2.6 можно выбирать, а вот Opus, Gemini Pro, GPT-5.4 и 5.5 - уже нельзя.
Я так предполагаю, что эти модели при тестировании выбираются случайно. Но - ушла эпоха. Больше нельзя использовать самые крутые модели совершенно бесплатно на arena.ai
GPT-5.5-high набрал "фантастические" 1500 баллов, что на уровне Opus 4.5 и на 43 балла выше, чем GPT-5.4-high (1457 elo)
Ну это полный провал. Даже muse-spark 1510 elo набирает, я уже про несчастный Sonnet 4.6 молчу с жалкими 1525 elo. Но скажем, GPT-5.5-high хорошо хоть на 9 место попал.
gemini-3.1-pro-preview - вообще на 15 месте с 1456 elo
Какие у нас еще есть конкуренты?
deepseek-v4-pro-thinking - 1455 elo по цене $0.87/1M - называется кодирую за копейки, только вот контекстное окно у него 1М против 255К у GPT-5.5 (разница с G 3.1 Pro в один балл)
Там еще в хвосте плетется minimax-m2.7 с 1413 elo и $1.20\1M
На май 2026 года ситуация в рейтигах сложилась крайне неоднозначная. Я конечно делаю свои собственные тесты, и может недели через 2 представлю вам свою собственную "турнирную таблицу".
Еще отмечу, что arena.ai убрали из выбора все дорогие модели старше GPT-5.3-codex
т.е. GLM-5.1 и Kimi-2.6 можно выбирать, а вот Opus, Gemini Pro, GPT-5.4 и 5.5 - уже нельзя.
Я так предполагаю, что эти модели при тестировании выбираются случайно. Но - ушла эпоха. Больше нельзя использовать самые крутые модели совершенно бесплатно на arena.ai
1
Forwarded from Да придет ИИ: ChatGPT, Claude, Gemini, Grok
Вышел Grok 4.3 - контекстное окно 1М
Цена новинки $2.50/1M, но при превышении 200К нужно будет доплачивать до $5\1M (что не очень дорого за 1М)
Успехов Илону! Ждем оценок в elo
Цена новинки $2.50/1M, но при превышении 200К нужно будет доплачивать до $5\1M (что не очень дорого за 1М)
Успехов Илону! Ждем оценок в elo
Deepseek снизил цену V4-pro до $3.48\1M
Цена очень даже конкурентоспособная. Но, как меня правильно дополнили в комментах, накакой омнимодальности, модель по прежнему только текстовая. Т.е. сильно подслеповатая (скриншот лендинга ей скинуть не получится).
Но на Openrouter уже продают PRO по $0.87/M
Тем интереснее будет увидеть его в тестах с игрой в Змейку!
https://openrouter.ai/deepseek/deepseek-v4-pro
Цена очень даже конкурентоспособная. Но, как меня правильно дополнили в комментах, накакой омнимодальности, модель по прежнему только текстовая. Т.е. сильно подслеповатая (скриншот лендинга ей скинуть не получится).
Но на Openrouter уже продают PRO по $0.87/M
Тем интереснее будет увидеть его в тестах с игрой в Змейку!
https://openrouter.ai/deepseek/deepseek-v4-pro
Вышел новый Terminal Сoding Harness Pi вдохновленный архитектурой Raspberry Pi
В чем разница с этими вашими OpenCode и TRAE?
Pi стартовал как агент кодирования в OpenClaw, сначала как обычный тул, потом вошел в ядро как SDK.
И вот сейчас релиз standalone app (pi-coding-agent), который принес с собой типичные фишки Pi:
• Минималистичность
• Нет режима планирования
• Опенсорсность
• Без MCP
• Никаких дополнительных агентов
• Никаких всплывающих окон с запросами разрешений (только полный доступ, только хардкор)
• Нет фонового bash. Используйте tmux.
• Самопрограммирование
На последней функции остановлюсь подробнее:
Если вам нужна команда, инструмент, поставщик, рабочий процесс или настройка пользовательского интерфейса - Pi просто создаст это с нуля.
https://pi.dev - посетите вебсайт, там такой дизайн, вы его точно никогда не забудете.
Создано компанией https://earendil.com и сообществом.
В чем разница с этими вашими OpenCode и TRAE?
Pi стартовал как агент кодирования в OpenClaw, сначала как обычный тул, потом вошел в ядро как SDK.
И вот сейчас релиз standalone app (pi-coding-agent), который принес с собой типичные фишки Pi:
• Минималистичность
• Нет режима планирования
• Опенсорсность
• Без MCP
• Никаких дополнительных агентов
• Никаких всплывающих окон с запросами разрешений (только полный доступ, только хардкор)
• Нет фонового bash. Используйте tmux.
• Самопрограммирование
На последней функции остановлюсь подробнее:
Если вам нужна команда, инструмент, поставщик, рабочий процесс или настройка пользовательского интерфейса - Pi просто создаст это с нуля.
https://pi.dev - посетите вебсайт, там такой дизайн, вы его точно никогда не забудете.
Создано компанией https://earendil.com и сообществом.
This media is not supported in your browser
VIEW IN TELEGRAM
Демонстрация Pi
Пишу ему:
Он тут же нашел суперпаверс... и быстренько написал скрипт ~/.pi/agent/extensions/working-timer.ts
После этого /reload
И прямо в интерфейсе появляется счетчики выполнения запроса.
Больше вы не зависите от чужих воркфлоу и можете кодировать так, как вы хотите на что фантазии вам хватит.
Пишу ему:
Хочу, чтобы рядом с Working... был счетчик в скобках (3.2s) сколько времени выполняется запрос.
Он тут же нашел суперпаверс... и быстренько написал скрипт ~/.pi/agent/extensions/working-timer.ts
После этого /reload
И прямо в интерфейсе появляется счетчики выполнения запроса.
Больше вы не зависите от чужих воркфлоу и можете кодировать так, как вы хотите на что фантазии вам хватит.