Забавно, что Claude Code не нужны никакие MCP и API, чтобы изучить любой публичный ТГ канал.
Сегодня пришла мысль, а пусть Claude Code изучит мой канал и последние посты, сохранит каждый пост в файл и потом проанализирует всякое, например, стиль, подметит какие-то моменты, сделает аналитику и выводы.
Теперь вы знаете, что покупать подписку на различные сервисы аналитики ТГ каналов такое себе решение (а подписки там дорогие). Путь у AI самурая иной. Пользуйтесь!
Интересно, что мои любимые слова: вайб-кодинг, кожаные, ламповый, космос!
И да, как подметил Claude Code – дофамин прёт!😬
Сегодня пришла мысль, а пусть Claude Code изучит мой канал и последние посты, сохранит каждый пост в файл и потом проанализирует всякое, например, стиль, подметит какие-то моменты, сделает аналитику и выводы.
Теперь вы знаете, что покупать подписку на различные сервисы аналитики ТГ каналов такое себе решение (а подписки там дорогие). Путь у AI самурая иной. Пользуйтесь!
Интересно, что мои любимые слова: вайб-кодинг, кожаные, ламповый, космос!
И да, как подметил Claude Code – дофамин прёт!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍8❤4🤣2
Я полюбил терминал c Claude Code CLI
У меня не раз уже спрашивали:
– “Ты реально в терминале сидишь, а не через IDE типа vccode?
– “А как же видеть, что он меняет?”
– “А как же глазами просматривать код, а вдруг он что-то не то сделал?”
– “Нет-нет, я сижу в Cursor и тщательно просматриваю каждое изменение.”
Это выбор, и каждый делает его для себя. Когда-то и я работал через Cursor и слово терминал для меня было чем-то страшным, но я заставил себя попробовать Claude Code CLI и понял, что это лучшее “окно” для работы с агентом.
Кто-то боится разучиться писать код вручную, кто-то боится, что агент наделает ерунды, но моё личное мнение, что это надуманная история.
Я часто стал замечать у разных людей, что Claude Code им в ответах выдаёт блок “★ Insight”, где описывается как что-то сделано, или почему им было принято такое решение или какие-то важные мысли, выделенные в этом отдельном блоке.
Оказывается в Claude Code есть слеш-команда output-style, и у меня значение output-style было выставлено в Default, т.е. самый скучный режим. Я упустил существование этой команды и полез разбираться, что это и как оно работает.
Output-style это своего рода переключатель системного промпта Claude Code. Только системный промпт не заменяется, а дополняется новым поведением агента. У этой команды есть 3 варианта: default, explanatory и learning.
На Default стиле сидят все, кто не знает о существовании этой команды. А вот Explanatory режим как раз добавляет те самые инсайты.
Но не менее интересен режим Learning. Судя по всему, он как раз для тех, кто не хочет разучиться писать код руками, хотя это вымирающий навык. В этом режиме агент так же выдает инсайты, но дополнительно оставляет в коде блоки TODO(human), чтобы человек сам дописал нужные куски кода и не разучился это делать или научился писать код, если он только учится в эти непростые для новичков времена.
А еще можно реализовать свой собственный стиль и поведение агента на уровне системного промпта, и дополнить его теми качествами, которые вам нужны.
Про output-style можно почитать тут
У меня не раз уже спрашивали:
– “Ты реально в терминале сидишь, а не через IDE типа vccode?
– “А как же видеть, что он меняет?”
– “А как же глазами просматривать код, а вдруг он что-то не то сделал?”
– “Нет-нет, я сижу в Cursor и тщательно просматриваю каждое изменение.”
Это выбор, и каждый делает его для себя. Когда-то и я работал через Cursor и слово терминал для меня было чем-то страшным, но я заставил себя попробовать Claude Code CLI и понял, что это лучшее “окно” для работы с агентом.
Кто-то боится разучиться писать код вручную, кто-то боится, что агент наделает ерунды, но моё личное мнение, что это надуманная история.
Я часто стал замечать у разных людей, что Claude Code им в ответах выдаёт блок “★ Insight”, где описывается как что-то сделано, или почему им было принято такое решение или какие-то важные мысли, выделенные в этом отдельном блоке.
Оказывается в Claude Code есть слеш-команда output-style, и у меня значение output-style было выставлено в Default, т.е. самый скучный режим. Я упустил существование этой команды и полез разбираться, что это и как оно работает.
Output-style это своего рода переключатель системного промпта Claude Code. Только системный промпт не заменяется, а дополняется новым поведением агента. У этой команды есть 3 варианта: default, explanatory и learning.
На Default стиле сидят все, кто не знает о существовании этой команды. А вот Explanatory режим как раз добавляет те самые инсайты.
Но не менее интересен режим Learning. Судя по всему, он как раз для тех, кто не хочет разучиться писать код руками, хотя это вымирающий навык. В этом режиме агент так же выдает инсайты, но дополнительно оставляет в коде блоки TODO(human), чтобы человек сам дописал нужные куски кода и не разучился это делать или научился писать код, если он только учится в эти непростые для новичков времена.
А еще можно реализовать свой собственный стиль и поведение агента на уровне системного промпта, и дополнить его теми качествами, которые вам нужны.
Про output-style можно почитать тут
🔥27👍13❤7
This media is not supported in your browser
VIEW IN TELEGRAM
Знакомо?
“Claude usage limit reached. Your limit will reset at 7 AM”
“Claude usage limit reached. Your limit will reset at 7 AM”
🤣22😭17🔥3👨💻1
Forwarded from Denis Sexy IT 🤖
Мне кажется, от зависимости на Claude Code и других агентов поляжет много народу
Когда я попал в ИТ и годы спустя, основная ценная мысль к которой приходишь примерно такая «по одному мы мало что можем, мы должны работать как команда чтобы делать великие вещи»
И это абсолютная истина – талантливые коллеги на местах мотивируют делать больше, гордиться продуктом, а вместе, иногда, вы делаете невероятное; но все это – очень сложная в поддержании система отношений между людьми
И вот, настает эпоха кодинг агентов - теперь любой член команды может заменить многих коллег цифровыми аналогами – Codex 5.2 xhigh и Opus 4.5 для работы, с GPT 5.2 Pro для написания PRD, в умелых руках способны на чудесные вещи, которые лет 5 назад стоили больших денег на рынке – «универсальная команда» доступна 24/7 и попадает в руки человеку с идеями, и любой человек с идеями не готов к этому новому миру
Человек с идеями начинает сначала делать, то, что давно хотел, потом реанимирует заброшенные проекты, через какое-то время покупает уже 7й домен «на всякий случай», ставит рекорды заброшенных в будущем проектов – но сегодня он ИТ-всемогущ, как ему кажется, на каждое сложное знание есть свой skill, на API-интеграцию – MCP сервер, на каждый сложный вопрос есть 5.2 Pro, которая не хуже чем многие эксперты в своих областях
И человек с идеями теряется – у него впервые в истории ИТ развязаны руки, он перепробовав все, не знает из чего выбрать, потому что идей, впервые, не больше чем ресурсов и терминал теперь источник эндорфина, не рилсы-тиктоки, даже не игры – мечта детства, всемогущая терминальная сила теперь стоит 200$ в месяц
В этой системе, мне кажется, самый ценный новый навык которого раньше не существовало, он был не нужен – научиться себе говорить «я это не делаю, не нужно» – потому что ресурсов уже сейчас хватает почти на всё и из-за этого формируется новая зависимость «создавать»
Мне кажется, многие не научатся себе это говорить – в коктейле FOMO и желания что-то сделать, видимо, появится новый психоз – уже чисто айтишный, где АИ-слоп выражен даже не в качестве кода, а в самом смысле продукта, в объемах информации, что человек производит в интернет
Ну или это правда ранние сигналы технологической сингулярности – мир где все могут всё в ИТ, мне пока непонятен, я к нему тоже не готов, и тоже учусь отказывать себе делать любую идею, что приходит в голову🏥
Когда я попал в ИТ и годы спустя, основная ценная мысль к которой приходишь примерно такая «по одному мы мало что можем, мы должны работать как команда чтобы делать великие вещи»
И это абсолютная истина – талантливые коллеги на местах мотивируют делать больше, гордиться продуктом, а вместе, иногда, вы делаете невероятное; но все это – очень сложная в поддержании система отношений между людьми
И вот, настает эпоха кодинг агентов - теперь любой член команды может заменить многих коллег цифровыми аналогами – Codex 5.2 xhigh и Opus 4.5 для работы, с GPT 5.2 Pro для написания PRD, в умелых руках способны на чудесные вещи, которые лет 5 назад стоили больших денег на рынке – «универсальная команда» доступна 24/7 и попадает в руки человеку с идеями, и любой человек с идеями не готов к этому новому миру
Человек с идеями начинает сначала делать, то, что давно хотел, потом реанимирует заброшенные проекты, через какое-то время покупает уже 7й домен «на всякий случай», ставит рекорды заброшенных в будущем проектов – но сегодня он ИТ-всемогущ, как ему кажется, на каждое сложное знание есть свой skill, на API-интеграцию – MCP сервер, на каждый сложный вопрос есть 5.2 Pro, которая не хуже чем многие эксперты в своих областях
И человек с идеями теряется – у него впервые в истории ИТ развязаны руки, он перепробовав все, не знает из чего выбрать, потому что идей, впервые, не больше чем ресурсов и терминал теперь источник эндорфина, не рилсы-тиктоки, даже не игры – мечта детства, всемогущая терминальная сила теперь стоит 200$ в месяц
В этой системе, мне кажется, самый ценный новый навык которого раньше не существовало, он был не нужен – научиться себе говорить «я это не делаю, не нужно» – потому что ресурсов уже сейчас хватает почти на всё и из-за этого формируется новая зависимость «создавать»
Мне кажется, многие не научатся себе это говорить – в коктейле FOMO и желания что-то сделать, видимо, появится новый психоз – уже чисто айтишный, где АИ-слоп выражен даже не в качестве кода, а в самом смысле продукта, в объемах информации, что человек производит в интернет
Ну или это правда ранние сигналы технологической сингулярности – мир где все могут всё в ИТ, мне пока непонятен, я к нему тоже не готов, и тоже учусь отказывать себе делать любую идею, что приходит в голову
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21👍9🤔2🔥1🤣1
Sonnet 5
Всё больше слухов и обсуждений в сети о Sonnet 5. О чем спекулируют:
– Кодовое название модели Fennec 🦊
– Контекст 1 млн токенов
– Ценник в 2 раза дешевле Opus 4.5
– Бьёт Opus 4.5 по всем бенчмаркам и показателям, лучший в агентной разработке
– Обучение на TPU
– Люди ожидают релиз чуть ли на этой недел, а где-то вообще значилась дата 3 февраля.
А учитывая, что Swarm и Tasks еще не были официально релизнуты в Claude Code, видимо нас ждет большой релиз!
Утечка произошла на Google Vertex AI, где модель уже засветилась, но пока недоступна (ошибка 404)
Всё больше слухов и обсуждений в сети о Sonnet 5. О чем спекулируют:
– Кодовое название модели Fennec 🦊
– Контекст 1 млн токенов
– Ценник в 2 раза дешевле Opus 4.5
– Бьёт Opus 4.5 по всем бенчмаркам и показателям, лучший в агентной разработке
– Обучение на TPU
– Люди ожидают релиз чуть ли на этой недел, а где-то вообще значилась дата 3 февраля.
А учитывая, что Swarm и Tasks еще не были официально релизнуты в Claude Code, видимо нас ждет большой релиз!
Утечка произошла на Google Vertex AI, где модель уже засветилась, но пока недоступна (ошибка 404)
🔥23❤4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
POV: Когда решил заменить всю команду на Mac mini + Clawdbot (OpenClaw)
🤣36🔥4❤1👍1
В Claude завезут генерацию изображений?
В коде нашли упоминание команд генерации и редактирования изображений. Но судя по всему, это будет не собственная модель, а партнерская, например от Google. А почему бы и нет?
Что-то явно намечается. По слухам, уже сегодня могут представить модель Sonnet 5.
В коде нашли упоминание команд генерации и редактирования изображений. Но судя по всему, это будет не собственная модель, а партнерская, например от Google. А почему бы и нет?
Что-то явно намечается. По слухам, уже сегодня могут представить модель Sonnet 5.
🔥21❤4👍4
Apple выпустила Release Candidate Xcode 26.3 с поддержкой агентного кодинга.
Раньше AI в Xcode мог только подсказывать и дополнять код. Теперь Claude Agent от Anthropic и Codex от OpenAI работают как полноценные агенты и могут сами выполнять действия внутри среды.
Ты даешь задачу на естественном языке, агент разбивает ее на шаги и дальше работает сам. Он смотрит структуру проекта, создает файлы, пишет код, билдит, запускает тесты, делает скриншоты для проверки результата. Если ловит ошибки, читает логи, правит код и билдит заново, пока не починит. В конце выдает саммари всех изменений.
Apple сделала отдельную документацию для разработчиков, оптимизированную под AI-агентов, и поработала с Anthropic и OpenAI над снижением расхода токенов.
Подключение в один клик в настройках Xcode. Нужен аккаунт Anthropic или OpenAI, работает как по подписке, так и по API с оплатой за токены. Агенты обновляются автоматически. Можно свободно переключаться между ними в одном проекте.
Важный нюанс, агент работает с XCode через MCP. То есть не только Claude и Codex, любой агент с поддержкой MCP можно подключить к Xcode. Apple выложит документацию для этого.
В сайдбаре есть транскрипт, видно что агент делает в реальном времени. И в любой момент можно откатить изменения до состояния перед вмешательством агента.
Вайб-кодинг теперь официально внутри Xcode.
Раньше AI в Xcode мог только подсказывать и дополнять код. Теперь Claude Agent от Anthropic и Codex от OpenAI работают как полноценные агенты и могут сами выполнять действия внутри среды.
Ты даешь задачу на естественном языке, агент разбивает ее на шаги и дальше работает сам. Он смотрит структуру проекта, создает файлы, пишет код, билдит, запускает тесты, делает скриншоты для проверки результата. Если ловит ошибки, читает логи, правит код и билдит заново, пока не починит. В конце выдает саммари всех изменений.
Apple сделала отдельную документацию для разработчиков, оптимизированную под AI-агентов, и поработала с Anthropic и OpenAI над снижением расхода токенов.
Подключение в один клик в настройках Xcode. Нужен аккаунт Anthropic или OpenAI, работает как по подписке, так и по API с оплатой за токены. Агенты обновляются автоматически. Можно свободно переключаться между ними в одном проекте.
Важный нюанс, агент работает с XCode через MCP. То есть не только Claude и Codex, любой агент с поддержкой MCP можно подключить к Xcode. Apple выложит документацию для этого.
В сайдбаре есть транскрипт, видно что агент делает в реальном времени. И в любой момент можно откатить изменения до состояния перед вмешательством агента.
Вайб-кодинг теперь официально внутри Xcode.
🔥24👍5❤4🤔2
В Claude Code завезли инсайты
Выполните команду
Claude Code подготовит для вас большую (нет, даже огромную) веб страничку локально на на вашем диске, где расскажет и покажет как вы используете Claude Code, где у вас сильные стороны, где слабые, что упускаете, что докрутить в вашем флоу использования CC.
Выполните команду
/insights и будет вам счастье. Claude Code подготовит для вас большую (нет, даже огромную) веб страничку локально на на вашем диске, где расскажет и покажет как вы используете Claude Code, где у вас сильные стороны, где слабые, что упускаете, что докрутить в вашем флоу использования CC.
🔥29❤5👍2
Ждали Sonnet 5, а получили Opus 4.6
TLDR: 1M контекста, 128K выход, adaptive thinking, SOTA на агентном кодинге, бьёт GPT-5.2 на 144 Elo, Agent Teams в Claude Code, Claude в PowerPoint, $5/$25 за млн токенов.
Вчера произошло нечто новое для индустрии - Anthropic и OpenAI выкатили свои флагманы с разницей в 20-30 минут. Opus 4.6 и GPT-5.3-Codex в один день. Т.е. релизы не разнесли в разные дни, а намеренно выпустили почти одновременно, чтобы затмить инфоповод.
Что нового в модели:
- Контекст 1 млн токенов (но с пометкой "бета"). Впервые для Opusов
- Выходной контекст 128K токенов вместо 64K (без пометки бета)
- Adaptive thinking - модель сама решает, думать или нет и сколько. Старый budget_tokens помечен как deprecated (привет, ultrathink)
- Параметр effort с уровнями low/medium/high/max - на low может вообще не включать рассуждения для простых вопросов
Бенчмарки:
Terminal-Bench 2.0 (агентный кодинг) - 65.4%, на момент релиза лучший, но через полчаса Codex 5.3 показал 77.3%. ARC AGI 2 (абстрактное рассуждение) - 68.8% против 37.6% у Opus 4.5, рост на 83%. GDPval-AA (финансы/юриспруденция) - обгоняет GPT-5.2 на 144 Elo, Opus 4.5 на 190. Humanity's Last Exam (задачи уровня PhD), BrowseComp (поиск в сети), DeepSearchQA (многошаговый поиск) - лидер на всех трёх. Ну и мой любимый, Vending-Bench 2 (модель управляет вендинговым автоматом - закупки, продажи, цены) - Opus 4.6 заработал $8,017, Gemini 3 Pro $5,478, Opus 4.5 $4,967, GPT-5.2 $3,591.
Контекст в миллион токенов отдельная история. На тесте MRCR v2 (найди 8 иголок в миллионе токенов) - 76% точности (93% на 256К контекте). Sonnet 4.5 на том же тесте - 18.5%. Нужно тестировать, как минимум пока в Claude Code /context показывает всё те же 200К.
Что завезли в Claude Code:
– Agent Teams (экспериментальное) - рой агентов, которые работают параллельно, могут общаться друг с другом и координурет их дядька Черномор (тим-лид). Каждый агент занимается своей задачей. Использовать с умом и осторожностью! Расскажу отдельным постом детали.
– Auto-memory. Нигде в релизе не увидел, но в CLI точно появилось. Агент записывает важные заметки о проекте между сессиями, особенно когда возникает ошибка, вы указываете на неё и агент запоминает это в память.
И небольшой бонус:
– Claude в PowerPoint (research preview) - читает лейауты, шрифты, slide masters и генерирует презентации с сохранением брендинга.
Что нового в API:
– Цена осталась та же - $5/$25 за млн токенов.
– Для тех, кто работает с разработкой через API, появился серверный Compaction API (бета). Вместо старой клиентской компрессии контекста теперь можно: задать точный порог срабатывания (от 50K токенов), поставить на паузу после сжатия и дописать важные сообщения, дать инструкции что сохранять при суммаризации, выстроить бюджет суммарных токенов. В ответе приходит детальный usage по каждой итерации. В Claude Code CLI по подписке этих ручек пока нет - там всё тот же авто-компакт с фиксированным порогом и /compact.
Детали о релизе в блоге у антропиков.
А теперь тестить, тестить!
TLDR: 1M контекста, 128K выход, adaptive thinking, SOTA на агентном кодинге, бьёт GPT-5.2 на 144 Elo, Agent Teams в Claude Code, Claude в PowerPoint, $5/$25 за млн токенов.
Вчера произошло нечто новое для индустрии - Anthropic и OpenAI выкатили свои флагманы с разницей в 20-30 минут. Opus 4.6 и GPT-5.3-Codex в один день. Т.е. релизы не разнесли в разные дни, а намеренно выпустили почти одновременно, чтобы затмить инфоповод.
Что нового в модели:
- Контекст 1 млн токенов (но с пометкой "бета"). Впервые для Opusов
- Выходной контекст 128K токенов вместо 64K (без пометки бета)
- Adaptive thinking - модель сама решает, думать или нет и сколько. Старый budget_tokens помечен как deprecated (привет, ultrathink)
- Параметр effort с уровнями low/medium/high/max - на low может вообще не включать рассуждения для простых вопросов
Бенчмарки:
Terminal-Bench 2.0 (агентный кодинг) - 65.4%, на момент релиза лучший, но через полчаса Codex 5.3 показал 77.3%. ARC AGI 2 (абстрактное рассуждение) - 68.8% против 37.6% у Opus 4.5, рост на 83%. GDPval-AA (финансы/юриспруденция) - обгоняет GPT-5.2 на 144 Elo, Opus 4.5 на 190. Humanity's Last Exam (задачи уровня PhD), BrowseComp (поиск в сети), DeepSearchQA (многошаговый поиск) - лидер на всех трёх. Ну и мой любимый, Vending-Bench 2 (модель управляет вендинговым автоматом - закупки, продажи, цены) - Opus 4.6 заработал $8,017, Gemini 3 Pro $5,478, Opus 4.5 $4,967, GPT-5.2 $3,591.
Контекст в миллион токенов отдельная история. На тесте MRCR v2 (найди 8 иголок в миллионе токенов) - 76% точности (93% на 256К контекте). Sonnet 4.5 на том же тесте - 18.5%. Нужно тестировать, как минимум пока в Claude Code /context показывает всё те же 200К.
Что завезли в Claude Code:
– Agent Teams (экспериментальное) - рой агентов, которые работают параллельно, могут общаться друг с другом и координурет их дядька Черномор (тим-лид). Каждый агент занимается своей задачей. Использовать с умом и осторожностью! Расскажу отдельным постом детали.
– Auto-memory. Нигде в релизе не увидел, но в CLI точно появилось. Агент записывает важные заметки о проекте между сессиями, особенно когда возникает ошибка, вы указываете на неё и агент запоминает это в память.
И небольшой бонус:
– Claude в PowerPoint (research preview) - читает лейауты, шрифты, slide masters и генерирует презентации с сохранением брендинга.
Что нового в API:
– Цена осталась та же - $5/$25 за млн токенов.
– Для тех, кто работает с разработкой через API, появился серверный Compaction API (бета). Вместо старой клиентской компрессии контекста теперь можно: задать точный порог срабатывания (от 50K токенов), поставить на паузу после сжатия и дописать важные сообщения, дать инструкции что сохранять при суммаризации, выстроить бюджет суммарных токенов. В ответе приходит детальный usage по каждой итерации. В Claude Code CLI по подписке этих ручек пока нет - там всё тот же авто-компакт с фиксированным порогом и /compact.
Детали о релизе в блоге у антропиков.
А теперь тестить, тестить!
❤18👍8🔥4
GPT-5.3-Codex: первая модель, которая помогала создавать саму себя
Выше рассказал про Opus 4.6, а теперь про вторую половину этой безумной ночи на релизы - GPT-5.3-Codex от OpenAI. Напомню: Anthropic и OpenAI выкатили флагманы с разницей в “минуты”, причём Anthropic дёрнулись первыми на 15 минут раньше оговоренного времени 😆 OpenAI пришлось догонять.
GPT-5.3-Codex объединяет кодинг-возможности GPT-5.2-Codex и рассуждения GPT-5.2 в одной модели, которая к тому же на 25% быстрее предшественника. Обучали на NVIDIA GB200 NVL72, тренировка модели в 4 раза быстрее прошлого поколения, новые версии можно катить каждые ~3 дня.
А вот размером контекста Сэм Альтман не хвалится, видимо без изменений, чтобы этой ночью не выглядеть в аутсайдерах. Маркетинг решает, у кого больше цифра, ну вы поняли! Хотя как говорят (Сэм говорит), важен не размер цифры, а как ты их используешь😃
А теперь самое поразительное! OpenAI заявляют, что это первая модель, которая участвовала в собственном создании. Ранние версии GPT-5.3-Codex использовались для дебага собственного обучения, управления деплойментом и диагностики тестов. Т.е. новая модель буквально помогала строить и улучшать саму себя. Звучит как начало рекурсии, а если дать волю своему воображению, то становится страшновато!
Бенчмарки:
– Terminal-Bench 2.0 (агентный кодинг): 77.3%. Opus 4.6 на том же тесте показал 65.4%, GPT-5.2-Codex - 64.0%. Разрыв серьёзный.
– SWE-Bench Pro: 56.8%, рост минимальный, всего +0.4% к предшественнику.
– OSWorld-Verified (работа с десктопом, браузером, файлами): 64.7% при 38.2% у GPT-5.2-Codex - вот тут прирост на 26.5 пунктов, приближается к человеческому показателю в 72%.
Цена в API пока не объявлена. Для ориентира, GPT-5.2-Codex стоил $1.75/$14.00 за млн токенов, Opus 4.6 стоит $5/$25. Модель доступна в Codex (приложение, CLI, расширение для IDE, веб) на платных тарифах - Plus ($20/мес), Pro ($200/мес), Business, Enterprise. Лимиты запросов удвоили. И тут интересный момент: вход в Codex стоит $20 на Plus, а сопоставимый уровень в Claude Code - $100 на Max (или около того). OpenAI видимо может себе позволить демпинговать и отдавать дешевле.
Разработчики уже потестили оба флагмана и вот какая картина. Издание Every.to прогнало обе модели на задачах от простого лендинга до полного интернет-магазина с оплатой: Opus 4.6 набрал 9.25 из 10, Codex 5.3 - 7.5. На самой сложной задаче разрыв максимальный - Opus выдал полный рабочий чекаут, Codex сделал красивый дизайн, но пропустил критичные фичи.
Сооснователь Cursor Майкл Труэлл отмечает, что Opus 4.6 лучше на самых тяжёлых задачах. Саймон Уиллисон (авторитет в dev-сообществе, знаете такого?) более сдержан: “обе модели отличные, но и предшественники были отличные, трудно найти задачу, которую старые не тянули, а новые тянут.”
На реддите уже набирает обороты тред "Opus 4.6 стал хуже?" Жалуются, что кодинг улучшился, а качество генерации текстов просело. А вы используете опус для текстов вообще?
Итог ночи: 2 флагманские модели за минуты друг от друга. Каждый из нас выбирает сам, лучше конечно после тестов и сравнений, и вероятно каждую модель использовать под разный тип задач. Конкуренция работает, кожаные в плюсе.
Официальный релиз в блоге OpenAI.
Грядёт день (очень-очень рядом), когда тарифы за $200 будут базовыми, а все плюшки будут за $1000 или $2000. Скриньте!
Выше рассказал про Opus 4.6, а теперь про вторую половину этой безумной ночи на релизы - GPT-5.3-Codex от OpenAI. Напомню: Anthropic и OpenAI выкатили флагманы с разницей в “минуты”, причём Anthropic дёрнулись первыми на 15 минут раньше оговоренного времени 😆 OpenAI пришлось догонять.
GPT-5.3-Codex объединяет кодинг-возможности GPT-5.2-Codex и рассуждения GPT-5.2 в одной модели, которая к тому же на 25% быстрее предшественника. Обучали на NVIDIA GB200 NVL72, тренировка модели в 4 раза быстрее прошлого поколения, новые версии можно катить каждые ~3 дня.
А вот размером контекста Сэм Альтман не хвалится, видимо без изменений, чтобы этой ночью не выглядеть в аутсайдерах. Маркетинг решает, у кого больше цифра, ну вы поняли! Хотя как говорят (Сэм говорит), важен не размер цифры, а как ты их используешь
А теперь самое поразительное! OpenAI заявляют, что это первая модель, которая участвовала в собственном создании. Ранние версии GPT-5.3-Codex использовались для дебага собственного обучения, управления деплойментом и диагностики тестов. Т.е. новая модель буквально помогала строить и улучшать саму себя. Звучит как начало рекурсии, а если дать волю своему воображению, то становится страшновато!
Бенчмарки:
– Terminal-Bench 2.0 (агентный кодинг): 77.3%. Opus 4.6 на том же тесте показал 65.4%, GPT-5.2-Codex - 64.0%. Разрыв серьёзный.
– SWE-Bench Pro: 56.8%, рост минимальный, всего +0.4% к предшественнику.
– OSWorld-Verified (работа с десктопом, браузером, файлами): 64.7% при 38.2% у GPT-5.2-Codex - вот тут прирост на 26.5 пунктов, приближается к человеческому показателю в 72%.
Цена в API пока не объявлена. Для ориентира, GPT-5.2-Codex стоил $1.75/$14.00 за млн токенов, Opus 4.6 стоит $5/$25. Модель доступна в Codex (приложение, CLI, расширение для IDE, веб) на платных тарифах - Plus ($20/мес), Pro ($200/мес), Business, Enterprise. Лимиты запросов удвоили. И тут интересный момент: вход в Codex стоит $20 на Plus, а сопоставимый уровень в Claude Code - $100 на Max (или около того). OpenAI видимо может себе позволить демпинговать и отдавать дешевле.
Разработчики уже потестили оба флагмана и вот какая картина. Издание Every.to прогнало обе модели на задачах от простого лендинга до полного интернет-магазина с оплатой: Opus 4.6 набрал 9.25 из 10, Codex 5.3 - 7.5. На самой сложной задаче разрыв максимальный - Opus выдал полный рабочий чекаут, Codex сделал красивый дизайн, но пропустил критичные фичи.
Сооснователь Cursor Майкл Труэлл отмечает, что Opus 4.6 лучше на самых тяжёлых задачах. Саймон Уиллисон (авторитет в dev-сообществе, знаете такого?) более сдержан: “обе модели отличные, но и предшественники были отличные, трудно найти задачу, которую старые не тянули, а новые тянут.”
На реддите уже набирает обороты тред "Opus 4.6 стал хуже?" Жалуются, что кодинг улучшился, а качество генерации текстов просело. А вы используете опус для текстов вообще?
Итог ночи: 2 флагманские модели за минуты друг от друга. Каждый из нас выбирает сам, лучше конечно после тестов и сравнений, и вероятно каждую модель использовать под разный тип задач. Конкуренция работает, кожаные в плюсе.
Официальный релиз в блоге OpenAI.
Грядёт день (очень-очень рядом), когда тарифы за $200 будут базовыми, а все плюшки будут за $1000 или $2000. Скриньте!
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤12🔥2👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤣57❤6🤔1
Халявные $50 на Opus 4.6
Кстати, я же вчера самое главное забыл вам сказать. Хотел в новость про Opus 4.6 добавить, но вылетело из головы.
Антропик раздает халявные $50 на тест Opus 4.6, особенно если хочется Agent Teams потестировать и не влететь по лимитам.
Если у вас есть подписка, то смело забирайте свои $50 на тест https://support.claude.com/en/articles/13613973-claude-opus-4-6-extra-usage-promo
Кстати, я же вчера самое главное забыл вам сказать. Хотел в новость про Opus 4.6 добавить, но вылетело из головы.
Антропик раздает халявные $50 на тест Opus 4.6, особенно если хочется Agent Teams потестировать и не влететь по лимитам.
Если у вас есть подписка, то смело забирайте свои $50 на тест https://support.claude.com/en/articles/13613973-claude-opus-4-6-extra-usage-promo
Claude
Claude Opus 4.6 extra usage promo | Claude Help Center
❤11🔥9🤔1
Forwarded from Сиолошная
Anthropic запустили Opus 4.6-Fast: теперь модель работает в 2.5 раза быстрее (примерно 100 токенов в секунду), но и стоит в 6 раз больше. У тех, кто использует планы в Claude Code, просто быстрее будет съедаться квота (видимо, и недельная, и 5-часовая).
Чтобы включить модель, нужно написать
В твиттере уже начали гадать, мол, что это за оптимизации, а как так, а неужели они используют Groq/Cerebras, или же это TPU от Google такие крутые, что можно в 2.5 раза разогнать.
На самом деле я почти уверен, что с точки зрения железа ничего не менялось, и математика тут понятна: можно уменьшить размер батча (количество одновременно обрабатываемых сессий), что приведёт к быстрой генерации для каждого отдельного пользователя. Но тогда и выручка с единицы GPU падает, и нужно повысить цену для компенсации.
Semianalysis с осени поддерживают InferenceMAX, в котором запускают разные модели на разных видеокартах. И, например, DeepSeek R1 при генерации 100 токенов в секунду на сессию выдаёт в среднем 6000 токенов в секунду на GPU , а при разгоне в 2.5 раза до 250 т/с — падает до 1000 токенов в секунду на GPU.
Таким образом количество токенов падает в 6 раз, цена растёт, выручка и маржинальность не меняются.
Ждём, пока OpenAI наконец-то запустятся на Cerebras, чтобы давать 150+ токенов в секунду.
Чтобы включить модель, нужно написать
/fast в Claude Code.В твиттере уже начали гадать, мол, что это за оптимизации, а как так, а неужели они используют Groq/Cerebras, или же это TPU от Google такие крутые, что можно в 2.5 раза разогнать.
На самом деле я почти уверен, что с точки зрения железа ничего не менялось, и математика тут понятна: можно уменьшить размер батча (количество одновременно обрабатываемых сессий), что приведёт к быстрой генерации для каждого отдельного пользователя. Но тогда и выручка с единицы GPU падает, и нужно повысить цену для компенсации.
Semianalysis с осени поддерживают InferenceMAX, в котором запускают разные модели на разных видеокартах. И, например, DeepSeek R1 при генерации 100 токенов в секунду на сессию выдаёт в среднем 6000 токенов в секунду на GPU , а при разгоне в 2.5 раза до 250 т/с — падает до 1000 токенов в секунду на GPU.
Таким образом количество токенов падает в 6 раз, цена растёт, выручка и маржинальность не меняются.
Ждём, пока OpenAI наконец-то запустятся на Cerebras, чтобы давать 150+ токенов в секунду.
🔥6
OpenClaw
В этот раз я не стал прыгать в хайповый вагон (видимо, старею😄 ), и немного пересидел, переждал, пока хотя бы название у проекта устоится, а оно сменилось 3 раза буквально за 1,5 месяца. Да-да, я говорю про OpenClaw, агентный AI-ассистент, который работает у вас локально или на сервере, использует LLM, чтобы делать разные полезные штуки. Пока вы спите, он и отчет соберет, и на письма ответит, и кучу всего сделает. Да и не только пока спите. У него огромная база коннекторов, Телеграм, Ватсап, гугловые сервисы и др., а также куча скиллов, с помощью которых Claw делает для вас что-то полезное. Всё это дико кастомизируемо, можно писать свои скиллы и коннекторы и сделать под себя удобного ассистента.
Про OpenClaw разве что только книгу еще не написали. Хотяяя, может и книги уже существуют.
Я долго думал, как бы применить его для себя, и вчера решился развернуть его на VPS. Закинул на OpenRouter $10, дал OpenClaw API-ключ и подключил модель kimi-k2.5. Я не стал рисковать своей Claude-подпиской, так как Anthropic за использование OAuth не по назначению банит аккаунты. Но каждый чих, каждое сообщение, сжигали 1–2 цента, и эти $10 быстро таяли.
Тогда я решил купить базовую подписку на Kimi за $19/мес, кажется, её мне пока будет хватать. В ней также можно легко создать API-ключ через Kimi Code и использовать без опаски, сами Kimi везде делятся гайдом, как настроить OpenClaw + Kimi.
А еще сразу подключил API-ключ от Groq, чтобы можно было голосовые сообщения боту в ТГ кидать, а он бы транскрибировал и понимал, что я от него хочу. Руками часто лень писать или за рулем приходят мысли.
К слову, установить OpenClaw достаточно просто (либо просто мне так показалось), у него есть удобный онбординг-процесс при первом запуске, прописываем нужные ключи, подключаем все коннекторы, через которые с ним взаимодействовать, я подключил ТГ-бота под Claw. После старта (у меня в ТГ-боте), Claw знакомится с вами, узнаёт разные детали, имя, где живете, часовой пояс и прочие штуки. При тестировании ассистента я попросил напомнить мне, что в пятницу бассейн у дочери, и Claw, создав напоминание (тупо через cron), также поинтересовался, как звать дочь. И все эти факты запоминает в базу знаний, чтобы потом использовать при общении с вами.
И вот как я пока придумал потестировать OpenClaw для своих задач. У меня есть утренний ритуал: заглянуть в разные системы аналитики, изучить, как подрос MRR, proceeds и прочие метрики за вчера. Далее изучаю, как окупаются рекламные кампании. В некоторые дни недели, если вижу аномалии в цифрах, начинаю копать глубже, где-то что-то взлетело или, наоборот, просело. У меня для этого давно написаны разные скрипты или MCP, которые запускаются по запросу через Claude Code. Поэтому хочется, чтобы Claw собирал мне к утру отчет с этими показателями и делал выводы, отдельные аналитические скиллы еще предстоит создать под него. Опять же, лично мне, можно было бы обойтись и без OpenClaw, но хотелось его потестировать и понять, на чём же там дико хайпят. Рокетсайнса там никакого нет, при чём штука очень прожорливая и может легко зациклиться и увести вас в минус.
Если используете уже OpenClaw, поделитесь для чего, какие задачи с ним решаете?
В этот раз я не стал прыгать в хайповый вагон (видимо, старею
Про OpenClaw разве что только книгу еще не написали. Хотяяя, может и книги уже существуют.
Я долго думал, как бы применить его для себя, и вчера решился развернуть его на VPS. Закинул на OpenRouter $10, дал OpenClaw API-ключ и подключил модель kimi-k2.5. Я не стал рисковать своей Claude-подпиской, так как Anthropic за использование OAuth не по назначению банит аккаунты. Но каждый чих, каждое сообщение, сжигали 1–2 цента, и эти $10 быстро таяли.
Тогда я решил купить базовую подписку на Kimi за $19/мес, кажется, её мне пока будет хватать. В ней также можно легко создать API-ключ через Kimi Code и использовать без опаски, сами Kimi везде делятся гайдом, как настроить OpenClaw + Kimi.
А еще сразу подключил API-ключ от Groq, чтобы можно было голосовые сообщения боту в ТГ кидать, а он бы транскрибировал и понимал, что я от него хочу. Руками часто лень писать или за рулем приходят мысли.
К слову, установить OpenClaw достаточно просто (либо просто мне так показалось), у него есть удобный онбординг-процесс при первом запуске, прописываем нужные ключи, подключаем все коннекторы, через которые с ним взаимодействовать, я подключил ТГ-бота под Claw. После старта (у меня в ТГ-боте), Claw знакомится с вами, узнаёт разные детали, имя, где живете, часовой пояс и прочие штуки. При тестировании ассистента я попросил напомнить мне, что в пятницу бассейн у дочери, и Claw, создав напоминание (тупо через cron), также поинтересовался, как звать дочь. И все эти факты запоминает в базу знаний, чтобы потом использовать при общении с вами.
И вот как я пока придумал потестировать OpenClaw для своих задач. У меня есть утренний ритуал: заглянуть в разные системы аналитики, изучить, как подрос MRR, proceeds и прочие метрики за вчера. Далее изучаю, как окупаются рекламные кампании. В некоторые дни недели, если вижу аномалии в цифрах, начинаю копать глубже, где-то что-то взлетело или, наоборот, просело. У меня для этого давно написаны разные скрипты или MCP, которые запускаются по запросу через Claude Code. Поэтому хочется, чтобы Claw собирал мне к утру отчет с этими показателями и делал выводы, отдельные аналитические скиллы еще предстоит создать под него. Опять же, лично мне, можно было бы обойтись и без OpenClaw, но хотелось его потестировать и понять, на чём же там дико хайпят. Рокетсайнса там никакого нет, при чём штука очень прожорливая и может легко зациклиться и увести вас в минус.
Если используете уже OpenClaw, поделитесь для чего, какие задачи с ним решаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍8