Forwarded from Denis Sexy IT 🤖
Мне кажется, от зависимости на Claude Code и других агентов поляжет много народу
Когда я попал в ИТ и годы спустя, основная ценная мысль к которой приходишь примерно такая «по одному мы мало что можем, мы должны работать как команда чтобы делать великие вещи»
И это абсолютная истина – талантливые коллеги на местах мотивируют делать больше, гордиться продуктом, а вместе, иногда, вы делаете невероятное; но все это – очень сложная в поддержании система отношений между людьми
И вот, настает эпоха кодинг агентов - теперь любой член команды может заменить многих коллег цифровыми аналогами – Codex 5.2 xhigh и Opus 4.5 для работы, с GPT 5.2 Pro для написания PRD, в умелых руках способны на чудесные вещи, которые лет 5 назад стоили больших денег на рынке – «универсальная команда» доступна 24/7 и попадает в руки человеку с идеями, и любой человек с идеями не готов к этому новому миру
Человек с идеями начинает сначала делать, то, что давно хотел, потом реанимирует заброшенные проекты, через какое-то время покупает уже 7й домен «на всякий случай», ставит рекорды заброшенных в будущем проектов – но сегодня он ИТ-всемогущ, как ему кажется, на каждое сложное знание есть свой skill, на API-интеграцию – MCP сервер, на каждый сложный вопрос есть 5.2 Pro, которая не хуже чем многие эксперты в своих областях
И человек с идеями теряется – у него впервые в истории ИТ развязаны руки, он перепробовав все, не знает из чего выбрать, потому что идей, впервые, не больше чем ресурсов и терминал теперь источник эндорфина, не рилсы-тиктоки, даже не игры – мечта детства, всемогущая терминальная сила теперь стоит 200$ в месяц
В этой системе, мне кажется, самый ценный новый навык которого раньше не существовало, он был не нужен – научиться себе говорить «я это не делаю, не нужно» – потому что ресурсов уже сейчас хватает почти на всё и из-за этого формируется новая зависимость «создавать»
Мне кажется, многие не научатся себе это говорить – в коктейле FOMO и желания что-то сделать, видимо, появится новый психоз – уже чисто айтишный, где АИ-слоп выражен даже не в качестве кода, а в самом смысле продукта, в объемах информации, что человек производит в интернет
Ну или это правда ранние сигналы технологической сингулярности – мир где все могут всё в ИТ, мне пока непонятен, я к нему тоже не готов, и тоже учусь отказывать себе делать любую идею, что приходит в голову🏥
Когда я попал в ИТ и годы спустя, основная ценная мысль к которой приходишь примерно такая «по одному мы мало что можем, мы должны работать как команда чтобы делать великие вещи»
И это абсолютная истина – талантливые коллеги на местах мотивируют делать больше, гордиться продуктом, а вместе, иногда, вы делаете невероятное; но все это – очень сложная в поддержании система отношений между людьми
И вот, настает эпоха кодинг агентов - теперь любой член команды может заменить многих коллег цифровыми аналогами – Codex 5.2 xhigh и Opus 4.5 для работы, с GPT 5.2 Pro для написания PRD, в умелых руках способны на чудесные вещи, которые лет 5 назад стоили больших денег на рынке – «универсальная команда» доступна 24/7 и попадает в руки человеку с идеями, и любой человек с идеями не готов к этому новому миру
Человек с идеями начинает сначала делать, то, что давно хотел, потом реанимирует заброшенные проекты, через какое-то время покупает уже 7й домен «на всякий случай», ставит рекорды заброшенных в будущем проектов – но сегодня он ИТ-всемогущ, как ему кажется, на каждое сложное знание есть свой skill, на API-интеграцию – MCP сервер, на каждый сложный вопрос есть 5.2 Pro, которая не хуже чем многие эксперты в своих областях
И человек с идеями теряется – у него впервые в истории ИТ развязаны руки, он перепробовав все, не знает из чего выбрать, потому что идей, впервые, не больше чем ресурсов и терминал теперь источник эндорфина, не рилсы-тиктоки, даже не игры – мечта детства, всемогущая терминальная сила теперь стоит 200$ в месяц
В этой системе, мне кажется, самый ценный новый навык которого раньше не существовало, он был не нужен – научиться себе говорить «я это не делаю, не нужно» – потому что ресурсов уже сейчас хватает почти на всё и из-за этого формируется новая зависимость «создавать»
Мне кажется, многие не научатся себе это говорить – в коктейле FOMO и желания что-то сделать, видимо, появится новый психоз – уже чисто айтишный, где АИ-слоп выражен даже не в качестве кода, а в самом смысле продукта, в объемах информации, что человек производит в интернет
Ну или это правда ранние сигналы технологической сингулярности – мир где все могут всё в ИТ, мне пока непонятен, я к нему тоже не готов, и тоже учусь отказывать себе делать любую идею, что приходит в голову
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21👍9🤔2🔥1🤣1
Sonnet 5
Всё больше слухов и обсуждений в сети о Sonnet 5. О чем спекулируют:
– Кодовое название модели Fennec 🦊
– Контекст 1 млн токенов
– Ценник в 2 раза дешевле Opus 4.5
– Бьёт Opus 4.5 по всем бенчмаркам и показателям, лучший в агентной разработке
– Обучение на TPU
– Люди ожидают релиз чуть ли на этой недел, а где-то вообще значилась дата 3 февраля.
А учитывая, что Swarm и Tasks еще не были официально релизнуты в Claude Code, видимо нас ждет большой релиз!
Утечка произошла на Google Vertex AI, где модель уже засветилась, но пока недоступна (ошибка 404)
Всё больше слухов и обсуждений в сети о Sonnet 5. О чем спекулируют:
– Кодовое название модели Fennec 🦊
– Контекст 1 млн токенов
– Ценник в 2 раза дешевле Opus 4.5
– Бьёт Opus 4.5 по всем бенчмаркам и показателям, лучший в агентной разработке
– Обучение на TPU
– Люди ожидают релиз чуть ли на этой недел, а где-то вообще значилась дата 3 февраля.
А учитывая, что Swarm и Tasks еще не были официально релизнуты в Claude Code, видимо нас ждет большой релиз!
Утечка произошла на Google Vertex AI, где модель уже засветилась, но пока недоступна (ошибка 404)
🔥23❤4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
POV: Когда решил заменить всю команду на Mac mini + Clawdbot (OpenClaw)
🤣36🔥4❤1👍1
В Claude завезут генерацию изображений?
В коде нашли упоминание команд генерации и редактирования изображений. Но судя по всему, это будет не собственная модель, а партнерская, например от Google. А почему бы и нет?
Что-то явно намечается. По слухам, уже сегодня могут представить модель Sonnet 5.
В коде нашли упоминание команд генерации и редактирования изображений. Но судя по всему, это будет не собственная модель, а партнерская, например от Google. А почему бы и нет?
Что-то явно намечается. По слухам, уже сегодня могут представить модель Sonnet 5.
🔥21❤4👍4
Apple выпустила Release Candidate Xcode 26.3 с поддержкой агентного кодинга.
Раньше AI в Xcode мог только подсказывать и дополнять код. Теперь Claude Agent от Anthropic и Codex от OpenAI работают как полноценные агенты и могут сами выполнять действия внутри среды.
Ты даешь задачу на естественном языке, агент разбивает ее на шаги и дальше работает сам. Он смотрит структуру проекта, создает файлы, пишет код, билдит, запускает тесты, делает скриншоты для проверки результата. Если ловит ошибки, читает логи, правит код и билдит заново, пока не починит. В конце выдает саммари всех изменений.
Apple сделала отдельную документацию для разработчиков, оптимизированную под AI-агентов, и поработала с Anthropic и OpenAI над снижением расхода токенов.
Подключение в один клик в настройках Xcode. Нужен аккаунт Anthropic или OpenAI, работает как по подписке, так и по API с оплатой за токены. Агенты обновляются автоматически. Можно свободно переключаться между ними в одном проекте.
Важный нюанс, агент работает с XCode через MCP. То есть не только Claude и Codex, любой агент с поддержкой MCP можно подключить к Xcode. Apple выложит документацию для этого.
В сайдбаре есть транскрипт, видно что агент делает в реальном времени. И в любой момент можно откатить изменения до состояния перед вмешательством агента.
Вайб-кодинг теперь официально внутри Xcode.
Раньше AI в Xcode мог только подсказывать и дополнять код. Теперь Claude Agent от Anthropic и Codex от OpenAI работают как полноценные агенты и могут сами выполнять действия внутри среды.
Ты даешь задачу на естественном языке, агент разбивает ее на шаги и дальше работает сам. Он смотрит структуру проекта, создает файлы, пишет код, билдит, запускает тесты, делает скриншоты для проверки результата. Если ловит ошибки, читает логи, правит код и билдит заново, пока не починит. В конце выдает саммари всех изменений.
Apple сделала отдельную документацию для разработчиков, оптимизированную под AI-агентов, и поработала с Anthropic и OpenAI над снижением расхода токенов.
Подключение в один клик в настройках Xcode. Нужен аккаунт Anthropic или OpenAI, работает как по подписке, так и по API с оплатой за токены. Агенты обновляются автоматически. Можно свободно переключаться между ними в одном проекте.
Важный нюанс, агент работает с XCode через MCP. То есть не только Claude и Codex, любой агент с поддержкой MCP можно подключить к Xcode. Apple выложит документацию для этого.
В сайдбаре есть транскрипт, видно что агент делает в реальном времени. И в любой момент можно откатить изменения до состояния перед вмешательством агента.
Вайб-кодинг теперь официально внутри Xcode.
🔥24👍5❤4🤔2
В Claude Code завезли инсайты
Выполните команду
Claude Code подготовит для вас большую (нет, даже огромную) веб страничку локально на на вашем диске, где расскажет и покажет как вы используете Claude Code, где у вас сильные стороны, где слабые, что упускаете, что докрутить в вашем флоу использования CC.
Выполните команду
/insights и будет вам счастье. Claude Code подготовит для вас большую (нет, даже огромную) веб страничку локально на на вашем диске, где расскажет и покажет как вы используете Claude Code, где у вас сильные стороны, где слабые, что упускаете, что докрутить в вашем флоу использования CC.
🔥29❤5👍2
Ждали Sonnet 5, а получили Opus 4.6
TLDR: 1M контекста, 128K выход, adaptive thinking, SOTA на агентном кодинге, бьёт GPT-5.2 на 144 Elo, Agent Teams в Claude Code, Claude в PowerPoint, $5/$25 за млн токенов.
Вчера произошло нечто новое для индустрии - Anthropic и OpenAI выкатили свои флагманы с разницей в 20-30 минут. Opus 4.6 и GPT-5.3-Codex в один день. Т.е. релизы не разнесли в разные дни, а намеренно выпустили почти одновременно, чтобы затмить инфоповод.
Что нового в модели:
- Контекст 1 млн токенов (но с пометкой "бета"). Впервые для Opusов
- Выходной контекст 128K токенов вместо 64K (без пометки бета)
- Adaptive thinking - модель сама решает, думать или нет и сколько. Старый budget_tokens помечен как deprecated (привет, ultrathink)
- Параметр effort с уровнями low/medium/high/max - на low может вообще не включать рассуждения для простых вопросов
Бенчмарки:
Terminal-Bench 2.0 (агентный кодинг) - 65.4%, на момент релиза лучший, но через полчаса Codex 5.3 показал 77.3%. ARC AGI 2 (абстрактное рассуждение) - 68.8% против 37.6% у Opus 4.5, рост на 83%. GDPval-AA (финансы/юриспруденция) - обгоняет GPT-5.2 на 144 Elo, Opus 4.5 на 190. Humanity's Last Exam (задачи уровня PhD), BrowseComp (поиск в сети), DeepSearchQA (многошаговый поиск) - лидер на всех трёх. Ну и мой любимый, Vending-Bench 2 (модель управляет вендинговым автоматом - закупки, продажи, цены) - Opus 4.6 заработал $8,017, Gemini 3 Pro $5,478, Opus 4.5 $4,967, GPT-5.2 $3,591.
Контекст в миллион токенов отдельная история. На тесте MRCR v2 (найди 8 иголок в миллионе токенов) - 76% точности (93% на 256К контекте). Sonnet 4.5 на том же тесте - 18.5%. Нужно тестировать, как минимум пока в Claude Code /context показывает всё те же 200К.
Что завезли в Claude Code:
– Agent Teams (экспериментальное) - рой агентов, которые работают параллельно, могут общаться друг с другом и координурет их дядька Черномор (тим-лид). Каждый агент занимается своей задачей. Использовать с умом и осторожностью! Расскажу отдельным постом детали.
– Auto-memory. Нигде в релизе не увидел, но в CLI точно появилось. Агент записывает важные заметки о проекте между сессиями, особенно когда возникает ошибка, вы указываете на неё и агент запоминает это в память.
И небольшой бонус:
– Claude в PowerPoint (research preview) - читает лейауты, шрифты, slide masters и генерирует презентации с сохранением брендинга.
Что нового в API:
– Цена осталась та же - $5/$25 за млн токенов.
– Для тех, кто работает с разработкой через API, появился серверный Compaction API (бета). Вместо старой клиентской компрессии контекста теперь можно: задать точный порог срабатывания (от 50K токенов), поставить на паузу после сжатия и дописать важные сообщения, дать инструкции что сохранять при суммаризации, выстроить бюджет суммарных токенов. В ответе приходит детальный usage по каждой итерации. В Claude Code CLI по подписке этих ручек пока нет - там всё тот же авто-компакт с фиксированным порогом и /compact.
Детали о релизе в блоге у антропиков.
А теперь тестить, тестить!
TLDR: 1M контекста, 128K выход, adaptive thinking, SOTA на агентном кодинге, бьёт GPT-5.2 на 144 Elo, Agent Teams в Claude Code, Claude в PowerPoint, $5/$25 за млн токенов.
Вчера произошло нечто новое для индустрии - Anthropic и OpenAI выкатили свои флагманы с разницей в 20-30 минут. Opus 4.6 и GPT-5.3-Codex в один день. Т.е. релизы не разнесли в разные дни, а намеренно выпустили почти одновременно, чтобы затмить инфоповод.
Что нового в модели:
- Контекст 1 млн токенов (но с пометкой "бета"). Впервые для Opusов
- Выходной контекст 128K токенов вместо 64K (без пометки бета)
- Adaptive thinking - модель сама решает, думать или нет и сколько. Старый budget_tokens помечен как deprecated (привет, ultrathink)
- Параметр effort с уровнями low/medium/high/max - на low может вообще не включать рассуждения для простых вопросов
Бенчмарки:
Terminal-Bench 2.0 (агентный кодинг) - 65.4%, на момент релиза лучший, но через полчаса Codex 5.3 показал 77.3%. ARC AGI 2 (абстрактное рассуждение) - 68.8% против 37.6% у Opus 4.5, рост на 83%. GDPval-AA (финансы/юриспруденция) - обгоняет GPT-5.2 на 144 Elo, Opus 4.5 на 190. Humanity's Last Exam (задачи уровня PhD), BrowseComp (поиск в сети), DeepSearchQA (многошаговый поиск) - лидер на всех трёх. Ну и мой любимый, Vending-Bench 2 (модель управляет вендинговым автоматом - закупки, продажи, цены) - Opus 4.6 заработал $8,017, Gemini 3 Pro $5,478, Opus 4.5 $4,967, GPT-5.2 $3,591.
Контекст в миллион токенов отдельная история. На тесте MRCR v2 (найди 8 иголок в миллионе токенов) - 76% точности (93% на 256К контекте). Sonnet 4.5 на том же тесте - 18.5%. Нужно тестировать, как минимум пока в Claude Code /context показывает всё те же 200К.
Что завезли в Claude Code:
– Agent Teams (экспериментальное) - рой агентов, которые работают параллельно, могут общаться друг с другом и координурет их дядька Черномор (тим-лид). Каждый агент занимается своей задачей. Использовать с умом и осторожностью! Расскажу отдельным постом детали.
– Auto-memory. Нигде в релизе не увидел, но в CLI точно появилось. Агент записывает важные заметки о проекте между сессиями, особенно когда возникает ошибка, вы указываете на неё и агент запоминает это в память.
И небольшой бонус:
– Claude в PowerPoint (research preview) - читает лейауты, шрифты, slide masters и генерирует презентации с сохранением брендинга.
Что нового в API:
– Цена осталась та же - $5/$25 за млн токенов.
– Для тех, кто работает с разработкой через API, появился серверный Compaction API (бета). Вместо старой клиентской компрессии контекста теперь можно: задать точный порог срабатывания (от 50K токенов), поставить на паузу после сжатия и дописать важные сообщения, дать инструкции что сохранять при суммаризации, выстроить бюджет суммарных токенов. В ответе приходит детальный usage по каждой итерации. В Claude Code CLI по подписке этих ручек пока нет - там всё тот же авто-компакт с фиксированным порогом и /compact.
Детали о релизе в блоге у антропиков.
А теперь тестить, тестить!
❤18👍8🔥4
GPT-5.3-Codex: первая модель, которая помогала создавать саму себя
Выше рассказал про Opus 4.6, а теперь про вторую половину этой безумной ночи на релизы - GPT-5.3-Codex от OpenAI. Напомню: Anthropic и OpenAI выкатили флагманы с разницей в “минуты”, причём Anthropic дёрнулись первыми на 15 минут раньше оговоренного времени 😆 OpenAI пришлось догонять.
GPT-5.3-Codex объединяет кодинг-возможности GPT-5.2-Codex и рассуждения GPT-5.2 в одной модели, которая к тому же на 25% быстрее предшественника. Обучали на NVIDIA GB200 NVL72, тренировка модели в 4 раза быстрее прошлого поколения, новые версии можно катить каждые ~3 дня.
А вот размером контекста Сэм Альтман не хвалится, видимо без изменений, чтобы этой ночью не выглядеть в аутсайдерах. Маркетинг решает, у кого больше цифра, ну вы поняли! Хотя как говорят (Сэм говорит), важен не размер цифры, а как ты их используешь😃
А теперь самое поразительное! OpenAI заявляют, что это первая модель, которая участвовала в собственном создании. Ранние версии GPT-5.3-Codex использовались для дебага собственного обучения, управления деплойментом и диагностики тестов. Т.е. новая модель буквально помогала строить и улучшать саму себя. Звучит как начало рекурсии, а если дать волю своему воображению, то становится страшновато!
Бенчмарки:
– Terminal-Bench 2.0 (агентный кодинг): 77.3%. Opus 4.6 на том же тесте показал 65.4%, GPT-5.2-Codex - 64.0%. Разрыв серьёзный.
– SWE-Bench Pro: 56.8%, рост минимальный, всего +0.4% к предшественнику.
– OSWorld-Verified (работа с десктопом, браузером, файлами): 64.7% при 38.2% у GPT-5.2-Codex - вот тут прирост на 26.5 пунктов, приближается к человеческому показателю в 72%.
Цена в API пока не объявлена. Для ориентира, GPT-5.2-Codex стоил $1.75/$14.00 за млн токенов, Opus 4.6 стоит $5/$25. Модель доступна в Codex (приложение, CLI, расширение для IDE, веб) на платных тарифах - Plus ($20/мес), Pro ($200/мес), Business, Enterprise. Лимиты запросов удвоили. И тут интересный момент: вход в Codex стоит $20 на Plus, а сопоставимый уровень в Claude Code - $100 на Max (или около того). OpenAI видимо может себе позволить демпинговать и отдавать дешевле.
Разработчики уже потестили оба флагмана и вот какая картина. Издание Every.to прогнало обе модели на задачах от простого лендинга до полного интернет-магазина с оплатой: Opus 4.6 набрал 9.25 из 10, Codex 5.3 - 7.5. На самой сложной задаче разрыв максимальный - Opus выдал полный рабочий чекаут, Codex сделал красивый дизайн, но пропустил критичные фичи.
Сооснователь Cursor Майкл Труэлл отмечает, что Opus 4.6 лучше на самых тяжёлых задачах. Саймон Уиллисон (авторитет в dev-сообществе, знаете такого?) более сдержан: “обе модели отличные, но и предшественники были отличные, трудно найти задачу, которую старые не тянули, а новые тянут.”
На реддите уже набирает обороты тред "Opus 4.6 стал хуже?" Жалуются, что кодинг улучшился, а качество генерации текстов просело. А вы используете опус для текстов вообще?
Итог ночи: 2 флагманские модели за минуты друг от друга. Каждый из нас выбирает сам, лучше конечно после тестов и сравнений, и вероятно каждую модель использовать под разный тип задач. Конкуренция работает, кожаные в плюсе.
Официальный релиз в блоге OpenAI.
Грядёт день (очень-очень рядом), когда тарифы за $200 будут базовыми, а все плюшки будут за $1000 или $2000. Скриньте!
Выше рассказал про Opus 4.6, а теперь про вторую половину этой безумной ночи на релизы - GPT-5.3-Codex от OpenAI. Напомню: Anthropic и OpenAI выкатили флагманы с разницей в “минуты”, причём Anthropic дёрнулись первыми на 15 минут раньше оговоренного времени 😆 OpenAI пришлось догонять.
GPT-5.3-Codex объединяет кодинг-возможности GPT-5.2-Codex и рассуждения GPT-5.2 в одной модели, которая к тому же на 25% быстрее предшественника. Обучали на NVIDIA GB200 NVL72, тренировка модели в 4 раза быстрее прошлого поколения, новые версии можно катить каждые ~3 дня.
А вот размером контекста Сэм Альтман не хвалится, видимо без изменений, чтобы этой ночью не выглядеть в аутсайдерах. Маркетинг решает, у кого больше цифра, ну вы поняли! Хотя как говорят (Сэм говорит), важен не размер цифры, а как ты их используешь
А теперь самое поразительное! OpenAI заявляют, что это первая модель, которая участвовала в собственном создании. Ранние версии GPT-5.3-Codex использовались для дебага собственного обучения, управления деплойментом и диагностики тестов. Т.е. новая модель буквально помогала строить и улучшать саму себя. Звучит как начало рекурсии, а если дать волю своему воображению, то становится страшновато!
Бенчмарки:
– Terminal-Bench 2.0 (агентный кодинг): 77.3%. Opus 4.6 на том же тесте показал 65.4%, GPT-5.2-Codex - 64.0%. Разрыв серьёзный.
– SWE-Bench Pro: 56.8%, рост минимальный, всего +0.4% к предшественнику.
– OSWorld-Verified (работа с десктопом, браузером, файлами): 64.7% при 38.2% у GPT-5.2-Codex - вот тут прирост на 26.5 пунктов, приближается к человеческому показателю в 72%.
Цена в API пока не объявлена. Для ориентира, GPT-5.2-Codex стоил $1.75/$14.00 за млн токенов, Opus 4.6 стоит $5/$25. Модель доступна в Codex (приложение, CLI, расширение для IDE, веб) на платных тарифах - Plus ($20/мес), Pro ($200/мес), Business, Enterprise. Лимиты запросов удвоили. И тут интересный момент: вход в Codex стоит $20 на Plus, а сопоставимый уровень в Claude Code - $100 на Max (или около того). OpenAI видимо может себе позволить демпинговать и отдавать дешевле.
Разработчики уже потестили оба флагмана и вот какая картина. Издание Every.to прогнало обе модели на задачах от простого лендинга до полного интернет-магазина с оплатой: Opus 4.6 набрал 9.25 из 10, Codex 5.3 - 7.5. На самой сложной задаче разрыв максимальный - Opus выдал полный рабочий чекаут, Codex сделал красивый дизайн, но пропустил критичные фичи.
Сооснователь Cursor Майкл Труэлл отмечает, что Opus 4.6 лучше на самых тяжёлых задачах. Саймон Уиллисон (авторитет в dev-сообществе, знаете такого?) более сдержан: “обе модели отличные, но и предшественники были отличные, трудно найти задачу, которую старые не тянули, а новые тянут.”
На реддите уже набирает обороты тред "Opus 4.6 стал хуже?" Жалуются, что кодинг улучшился, а качество генерации текстов просело. А вы используете опус для текстов вообще?
Итог ночи: 2 флагманские модели за минуты друг от друга. Каждый из нас выбирает сам, лучше конечно после тестов и сравнений, и вероятно каждую модель использовать под разный тип задач. Конкуренция работает, кожаные в плюсе.
Официальный релиз в блоге OpenAI.
Грядёт день (очень-очень рядом), когда тарифы за $200 будут базовыми, а все плюшки будут за $1000 или $2000. Скриньте!
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤12🔥2👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤣57❤6🤔1
Халявные $50 на Opus 4.6
Кстати, я же вчера самое главное забыл вам сказать. Хотел в новость про Opus 4.6 добавить, но вылетело из головы.
Антропик раздает халявные $50 на тест Opus 4.6, особенно если хочется Agent Teams потестировать и не влететь по лимитам.
Если у вас есть подписка, то смело забирайте свои $50 на тест https://support.claude.com/en/articles/13613973-claude-opus-4-6-extra-usage-promo
Кстати, я же вчера самое главное забыл вам сказать. Хотел в новость про Opus 4.6 добавить, но вылетело из головы.
Антропик раздает халявные $50 на тест Opus 4.6, особенно если хочется Agent Teams потестировать и не влететь по лимитам.
Если у вас есть подписка, то смело забирайте свои $50 на тест https://support.claude.com/en/articles/13613973-claude-opus-4-6-extra-usage-promo
Claude
Claude Opus 4.6 extra usage promo | Claude Help Center
❤11🔥9🤔1
Forwarded from Сиолошная
Anthropic запустили Opus 4.6-Fast: теперь модель работает в 2.5 раза быстрее (примерно 100 токенов в секунду), но и стоит в 6 раз больше. У тех, кто использует планы в Claude Code, просто быстрее будет съедаться квота (видимо, и недельная, и 5-часовая).
Чтобы включить модель, нужно написать
В твиттере уже начали гадать, мол, что это за оптимизации, а как так, а неужели они используют Groq/Cerebras, или же это TPU от Google такие крутые, что можно в 2.5 раза разогнать.
На самом деле я почти уверен, что с точки зрения железа ничего не менялось, и математика тут понятна: можно уменьшить размер батча (количество одновременно обрабатываемых сессий), что приведёт к быстрой генерации для каждого отдельного пользователя. Но тогда и выручка с единицы GPU падает, и нужно повысить цену для компенсации.
Semianalysis с осени поддерживают InferenceMAX, в котором запускают разные модели на разных видеокартах. И, например, DeepSeek R1 при генерации 100 токенов в секунду на сессию выдаёт в среднем 6000 токенов в секунду на GPU , а при разгоне в 2.5 раза до 250 т/с — падает до 1000 токенов в секунду на GPU.
Таким образом количество токенов падает в 6 раз, цена растёт, выручка и маржинальность не меняются.
Ждём, пока OpenAI наконец-то запустятся на Cerebras, чтобы давать 150+ токенов в секунду.
Чтобы включить модель, нужно написать
/fast в Claude Code.В твиттере уже начали гадать, мол, что это за оптимизации, а как так, а неужели они используют Groq/Cerebras, или же это TPU от Google такие крутые, что можно в 2.5 раза разогнать.
На самом деле я почти уверен, что с точки зрения железа ничего не менялось, и математика тут понятна: можно уменьшить размер батча (количество одновременно обрабатываемых сессий), что приведёт к быстрой генерации для каждого отдельного пользователя. Но тогда и выручка с единицы GPU падает, и нужно повысить цену для компенсации.
Semianalysis с осени поддерживают InferenceMAX, в котором запускают разные модели на разных видеокартах. И, например, DeepSeek R1 при генерации 100 токенов в секунду на сессию выдаёт в среднем 6000 токенов в секунду на GPU , а при разгоне в 2.5 раза до 250 т/с — падает до 1000 токенов в секунду на GPU.
Таким образом количество токенов падает в 6 раз, цена растёт, выручка и маржинальность не меняются.
Ждём, пока OpenAI наконец-то запустятся на Cerebras, чтобы давать 150+ токенов в секунду.
🔥6
OpenClaw
В этот раз я не стал прыгать в хайповый вагон (видимо, старею😄 ), и немного пересидел, переждал, пока хотя бы название у проекта устоится, а оно сменилось 3 раза буквально за 1,5 месяца. Да-да, я говорю про OpenClaw, агентный AI-ассистент, который работает у вас локально или на сервере, использует LLM, чтобы делать разные полезные штуки. Пока вы спите, он и отчет соберет, и на письма ответит, и кучу всего сделает. Да и не только пока спите. У него огромная база коннекторов, Телеграм, Ватсап, гугловые сервисы и др., а также куча скиллов, с помощью которых Claw делает для вас что-то полезное. Всё это дико кастомизируемо, можно писать свои скиллы и коннекторы и сделать под себя удобного ассистента.
Про OpenClaw разве что только книгу еще не написали. Хотяяя, может и книги уже существуют.
Я долго думал, как бы применить его для себя, и вчера решился развернуть его на VPS. Закинул на OpenRouter $10, дал OpenClaw API-ключ и подключил модель kimi-k2.5. Я не стал рисковать своей Claude-подпиской, так как Anthropic за использование OAuth не по назначению банит аккаунты. Но каждый чих, каждое сообщение, сжигали 1–2 цента, и эти $10 быстро таяли.
Тогда я решил купить базовую подписку на Kimi за $19/мес, кажется, её мне пока будет хватать. В ней также можно легко создать API-ключ через Kimi Code и использовать без опаски, сами Kimi везде делятся гайдом, как настроить OpenClaw + Kimi.
А еще сразу подключил API-ключ от Groq, чтобы можно было голосовые сообщения боту в ТГ кидать, а он бы транскрибировал и понимал, что я от него хочу. Руками часто лень писать или за рулем приходят мысли.
К слову, установить OpenClaw достаточно просто (либо просто мне так показалось), у него есть удобный онбординг-процесс при первом запуске, прописываем нужные ключи, подключаем все коннекторы, через которые с ним взаимодействовать, я подключил ТГ-бота под Claw. После старта (у меня в ТГ-боте), Claw знакомится с вами, узнаёт разные детали, имя, где живете, часовой пояс и прочие штуки. При тестировании ассистента я попросил напомнить мне, что в пятницу бассейн у дочери, и Claw, создав напоминание (тупо через cron), также поинтересовался, как звать дочь. И все эти факты запоминает в базу знаний, чтобы потом использовать при общении с вами.
И вот как я пока придумал потестировать OpenClaw для своих задач. У меня есть утренний ритуал: заглянуть в разные системы аналитики, изучить, как подрос MRR, proceeds и прочие метрики за вчера. Далее изучаю, как окупаются рекламные кампании. В некоторые дни недели, если вижу аномалии в цифрах, начинаю копать глубже, где-то что-то взлетело или, наоборот, просело. У меня для этого давно написаны разные скрипты или MCP, которые запускаются по запросу через Claude Code. Поэтому хочется, чтобы Claw собирал мне к утру отчет с этими показателями и делал выводы, отдельные аналитические скиллы еще предстоит создать под него. Опять же, лично мне, можно было бы обойтись и без OpenClaw, но хотелось его потестировать и понять, на чём же там дико хайпят. Рокетсайнса там никакого нет, при чём штука очень прожорливая и может легко зациклиться и увести вас в минус.
Если используете уже OpenClaw, поделитесь для чего, какие задачи с ним решаете?
В этот раз я не стал прыгать в хайповый вагон (видимо, старею
Про OpenClaw разве что только книгу еще не написали. Хотяяя, может и книги уже существуют.
Я долго думал, как бы применить его для себя, и вчера решился развернуть его на VPS. Закинул на OpenRouter $10, дал OpenClaw API-ключ и подключил модель kimi-k2.5. Я не стал рисковать своей Claude-подпиской, так как Anthropic за использование OAuth не по назначению банит аккаунты. Но каждый чих, каждое сообщение, сжигали 1–2 цента, и эти $10 быстро таяли.
Тогда я решил купить базовую подписку на Kimi за $19/мес, кажется, её мне пока будет хватать. В ней также можно легко создать API-ключ через Kimi Code и использовать без опаски, сами Kimi везде делятся гайдом, как настроить OpenClaw + Kimi.
А еще сразу подключил API-ключ от Groq, чтобы можно было голосовые сообщения боту в ТГ кидать, а он бы транскрибировал и понимал, что я от него хочу. Руками часто лень писать или за рулем приходят мысли.
К слову, установить OpenClaw достаточно просто (либо просто мне так показалось), у него есть удобный онбординг-процесс при первом запуске, прописываем нужные ключи, подключаем все коннекторы, через которые с ним взаимодействовать, я подключил ТГ-бота под Claw. После старта (у меня в ТГ-боте), Claw знакомится с вами, узнаёт разные детали, имя, где живете, часовой пояс и прочие штуки. При тестировании ассистента я попросил напомнить мне, что в пятницу бассейн у дочери, и Claw, создав напоминание (тупо через cron), также поинтересовался, как звать дочь. И все эти факты запоминает в базу знаний, чтобы потом использовать при общении с вами.
И вот как я пока придумал потестировать OpenClaw для своих задач. У меня есть утренний ритуал: заглянуть в разные системы аналитики, изучить, как подрос MRR, proceeds и прочие метрики за вчера. Далее изучаю, как окупаются рекламные кампании. В некоторые дни недели, если вижу аномалии в цифрах, начинаю копать глубже, где-то что-то взлетело или, наоборот, просело. У меня для этого давно написаны разные скрипты или MCP, которые запускаются по запросу через Claude Code. Поэтому хочется, чтобы Claw собирал мне к утру отчет с этими показателями и делал выводы, отдельные аналитические скиллы еще предстоит создать под него. Опять же, лично мне, можно было бы обойтись и без OpenClaw, но хотелось его потестировать и понять, на чём же там дико хайпят. Рокетсайнса там никакого нет, при чём штука очень прожорливая и может легко зациклиться и увести вас в минус.
Если используете уже OpenClaw, поделитесь для чего, какие задачи с ним решаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍8
Claude Cowork вышел под Windows
Windows часто обходят стороной и для него делают в последнюю очередь все новые приложения. И если вы ждали Claude Cowork для Windows, чтобы начать использовать агентный подход не для разработки, а для работы с файлами, ОС и всякими тулами/приложениями, то момент пришел.
Кстати, а расскажите, используете ли вы уже Cowork? Для каких задач? Как часто?
Скачать можно тут: https://claude.com/download
Windows часто обходят стороной и для него делают в последнюю очередь все новые приложения. И если вы ждали Claude Cowork для Windows, чтобы начать использовать агентный подход не для разработки, а для работы с файлами, ОС и всякими тулами/приложениями, то момент пришел.
Кстати, а расскажите, используете ли вы уже Cowork? Для каких задач? Как часто?
Скачать можно тут: https://claude.com/download
🔥9
MiniMax M2.5 - дешевая открытая модель из Китая перешла дорогу дорогим конкурентам
Китайская MiniMax за год прошла путь от M1 с 56% на SWE-Bench до M2.5 с 80.2%. А предыдущие три версии (M2, M2.1, M2.5) вообще вышли за последние 3.5 месяца.
Бенчмарки:
– SWE-Bench Verified: 80.2% (Opus 4.6 - 80.8%, GPT-5.2 - 78%, Gemini 3 Pro - 80%)
– Multi-SWE-Bench: 51.3% - обгоняет Opus 4.6 (50.3%) и Gemini 3 Pro (42.7%)
– SWE-Bench Pro: 55.4% (Opus 4.6 - 55.4%, GPT-5.2 - 54.1%)
– Terminal-Bench 2: 51.7% (Opus 4.6 - 55.1%, GPT-5.2 - 54%)
– Droid harness: 79.7% - обгоняет Opus 4.6 (78.9%)
– OpenCode harness: 76.1% - обгоняет Opus 4.6 (75.9%)
– BrowseComp (поиск): 76.3%
– GDPval-MM (офисные задачи): 59.0% win rate против конкурентов
– Скорость на SWE-Bench: 22.8 мин - почти идентична Opus 4.6 (22.9 мин)
Две варианта модели:
– M2.5-Lightning - 100 токенов/сек, $0.30/$2.40 за млн токенов. Для скорости.
– M2.5 - 50 токенов/сек, вдвое дешевле: $0.15/$1.20. Для экономии.
– Для сравнения: Opus 4.6 стоит $5/$25, что в 20 раз дороже минимакса.
– Full-stack разработка на 13 языках (Python, JS, TS, Go, Rust, C++, Kotlin и др.), от архитектуры до code review. Web, Android, iOS, Windows + серверная часть.
– Офисная работа: Word, PowerPoint, Excel с форматированием и финансовыми моделями
– Поиск и агентные задачи: BrowseComp 76.3%, на 20% меньше итераций чем M2.1
– $1 в час при непрерывной работе на 100 TPS, $0.30 на 50 TPS
– 80% кодовой базы самого MiniMax написано этой моделью, 30% задач компании автоматизировано через M2.5
Где попробовать:
– agent.minimax.io
– API: platform.minimax.io (подписки от $10/мес)
– OpenRouter: модель minimax/minimax-m2.5
– В Qoder CLI, в Opencode пока бесплатно
– и множество других мест, где вам привычно и скорее всего там уже завезли минимакс м2.5
Удивление и уважение!
Китайская MiniMax за год прошла путь от M1 с 56% на SWE-Bench до M2.5 с 80.2%. А предыдущие три версии (M2, M2.1, M2.5) вообще вышли за последние 3.5 месяца.
Бенчмарки:
– SWE-Bench Verified: 80.2% (Opus 4.6 - 80.8%, GPT-5.2 - 78%, Gemini 3 Pro - 80%)
– Multi-SWE-Bench: 51.3% - обгоняет Opus 4.6 (50.3%) и Gemini 3 Pro (42.7%)
– SWE-Bench Pro: 55.4% (Opus 4.6 - 55.4%, GPT-5.2 - 54.1%)
– Terminal-Bench 2: 51.7% (Opus 4.6 - 55.1%, GPT-5.2 - 54%)
– Droid harness: 79.7% - обгоняет Opus 4.6 (78.9%)
– OpenCode harness: 76.1% - обгоняет Opus 4.6 (75.9%)
– BrowseComp (поиск): 76.3%
– GDPval-MM (офисные задачи): 59.0% win rate против конкурентов
– Скорость на SWE-Bench: 22.8 мин - почти идентична Opus 4.6 (22.9 мин)
Две варианта модели:
– M2.5-Lightning - 100 токенов/сек, $0.30/$2.40 за млн токенов. Для скорости.
– M2.5 - 50 токенов/сек, вдвое дешевле: $0.15/$1.20. Для экономии.
– Для сравнения: Opus 4.6 стоит $5/$25, что в 20 раз дороже минимакса.
– Full-stack разработка на 13 языках (Python, JS, TS, Go, Rust, C++, Kotlin и др.), от архитектуры до code review. Web, Android, iOS, Windows + серверная часть.
– Офисная работа: Word, PowerPoint, Excel с форматированием и финансовыми моделями
– Поиск и агентные задачи: BrowseComp 76.3%, на 20% меньше итераций чем M2.1
– $1 в час при непрерывной работе на 100 TPS, $0.30 на 50 TPS
– 80% кодовой базы самого MiniMax написано этой моделью, 30% задач компании автоматизировано через M2.5
Где попробовать:
– agent.minimax.io
– API: platform.minimax.io (подписки от $10/мес)
– OpenRouter: модель minimax/minimax-m2.5
– В Qoder CLI, в Opencode пока бесплатно
– и множество других мест, где вам привычно и скорее всего там уже завезли минимакс м2.5
Удивление и уважение!
🔥16❤5
⚡1000 токенов в секунду
OpenAI начали “тратить” свой многомиллиардный контракт с Cerebras
Неделю назад вышел GPT-5.3-Codex с 77.3% на Terminal-Bench, который помогал создавать сам себя. А вчера OpenAI выкатили его младшего брата - Codex-Spark. Уменьшенная версия, заточенная под одну цель: скорость.
И скорость тут не метафора. 1000+ токенов в секунду. В 15 раз быстрее полноразмерного Codex. Те же задачи на SWE-Bench Pro, которые старший брат решает за 15-17 минут, Spark щёлкает за 2-3. Time-to-first-token на 50% быстрее (то самое ожидание, когда ты нажал Enter и смотришь на пустой экран), overhead ("накладные расходы" на каждый обмен сообщениями между твоим компом и сервером) на каждый раунд-трип снижен на 80%. Они ещё и persistent WebSocket прикрутили, чтобы не тратить время на переподключения.
Под капотом - Cerebras Wafer Scale Engine 3. OpenAI подписали многомиллиардный контракт с Cerebras в январе, и через 4 недели уже первый продукт на этом железе в продакшене. Молния!
Terminal-Bench 2.0: 58.4% у Spark против 77.3% у полного Codex. Но при этом Spark на голову выше предыдущего GPT-5.1-Codex-mini (46.1%). Контекст 128K токенов, только текст.
Идея в том, что скорость меняет сам процесс работы. Когда модель отвечает мгновенно, ты остаёшься в потоке, делаешь быстрые итерации, не теряешь мысль (не успеваешь позевать). Не 15 минут тишины, а секунды. Другой ритм (красные глаза нам обеспечены, теперь не получится отрываться от монитора в ожидании когда же закончит агент).
Доступно пока в виде research preview и только для подписчиков ChatGPT Pro в Codex. API обещают скоро. Цены не объявлены.
Все детали в релизе: https://openai.com/index/introducing-gpt-5-3-codex-spark (тут есть видео сравнение 5.3 и 5.3 spark. Скорость просто невероятная)
OpenAI начали “тратить” свой многомиллиардный контракт с Cerebras
Неделю назад вышел GPT-5.3-Codex с 77.3% на Terminal-Bench, который помогал создавать сам себя. А вчера OpenAI выкатили его младшего брата - Codex-Spark. Уменьшенная версия, заточенная под одну цель: скорость.
И скорость тут не метафора. 1000+ токенов в секунду. В 15 раз быстрее полноразмерного Codex. Те же задачи на SWE-Bench Pro, которые старший брат решает за 15-17 минут, Spark щёлкает за 2-3. Time-to-first-token на 50% быстрее (то самое ожидание, когда ты нажал Enter и смотришь на пустой экран), overhead ("накладные расходы" на каждый обмен сообщениями между твоим компом и сервером) на каждый раунд-трип снижен на 80%. Они ещё и persistent WebSocket прикрутили, чтобы не тратить время на переподключения.
Под капотом - Cerebras Wafer Scale Engine 3. OpenAI подписали многомиллиардный контракт с Cerebras в январе, и через 4 недели уже первый продукт на этом железе в продакшене. Молния!
Terminal-Bench 2.0: 58.4% у Spark против 77.3% у полного Codex. Но при этом Spark на голову выше предыдущего GPT-5.1-Codex-mini (46.1%). Контекст 128K токенов, только текст.
Идея в том, что скорость меняет сам процесс работы. Когда модель отвечает мгновенно, ты остаёшься в потоке, делаешь быстрые итерации, не теряешь мысль (не успеваешь позевать). Не 15 минут тишины, а секунды. Другой ритм (красные глаза нам обеспечены, теперь не получится отрываться от монитора в ожидании когда же закончит агент).
Доступно пока в виде research preview и только для подписчиков ChatGPT Pro в Codex. API обещают скоро. Цены не объявлены.
Все детали в релизе: https://openai.com/index/introducing-gpt-5-3-codex-spark (тут есть видео сравнение 5.3 и 5.3 spark. Скорость просто невероятная)
❤7🔥5👍3
Твиттер начал борьбу с ботами и AI автоматизациями
Теперь, если ваши действия в Х не имеют ничего общего с поведением человека (нет тапов по экрану, скроллов и т.п), ваш аккаунт сразу же будет приостанавливаться (а может и баниться) и все аккаунты с ним связанные.
Я понимаю, что эмуляция поведения человека на экране легко осуществима, но это как минимум поставит заградительную стену для простых и тупых массовых автоматизаций.
Никита Бир, глава продукта в Х, предупредил, что за любой автоматизированный постинг, сразу «пока». Учитывая, что Х оплачивает вознаграждения авторам за показы рекламы в их твитах, явно с автоматизацией нужно как-то бороться.
Сейчас всё чаще автоматизация постинга превращается в конвейер в погоне за просмотрами, лайками и конечно же продажами. Настроили очередной OpenClaw, подключили кросс постинг во все соц сети, и в ленту летят десятки публикаций в день. Проблема не в инструментах, а в том, что с появлением AI, ленты наводняются мусорным и однотипным контентом.
И кажется, чтобы соц сети не умерли, таких ограничений и детекций «Подтверди, что ты человек” будет всё больше. Началась война против AI автоматизации! Прольются реки и полетят баны 😎
Теперь, если ваши действия в Х не имеют ничего общего с поведением человека (нет тапов по экрану, скроллов и т.п), ваш аккаунт сразу же будет приостанавливаться (а может и баниться) и все аккаунты с ним связанные.
Я понимаю, что эмуляция поведения человека на экране легко осуществима, но это как минимум поставит заградительную стену для простых и тупых массовых автоматизаций.
Никита Бир, глава продукта в Х, предупредил, что за любой автоматизированный постинг, сразу «пока». Учитывая, что Х оплачивает вознаграждения авторам за показы рекламы в их твитах, явно с автоматизацией нужно как-то бороться.
Сейчас всё чаще автоматизация постинга превращается в конвейер в погоне за просмотрами, лайками и конечно же продажами. Настроили очередной OpenClaw, подключили кросс постинг во все соц сети, и в ленту летят десятки публикаций в день. Проблема не в инструментах, а в том, что с появлением AI, ленты наводняются мусорным и однотипным контентом.
И кажется, чтобы соц сети не умерли, таких ограничений и детекций «Подтверди, что ты человек” будет всё больше. Началась война против AI автоматизации! Прольются реки и полетят баны 😎
12❤18🔥9