ИИволюция 👾
11.2K subscribers
889 photos
351 videos
1 file
777 links
Авторский канал Сергея Пахандрина про AI, нейросети, AI-разработку, ChatGPT (и другие LLM). Строю AI-first компанию. Рассказываю о своём опыте и экспериментах с AI.

По всем вопросам: @pakhandrin
РКН: https://clck.ru/3QJLiL

В ВП и папках не участвую
Download Telegram
В Claude Code завезли инсайты

Выполните команду /insights и будет вам счастье.

Claude Code подготовит для вас большую (нет, даже огромную) веб страничку локально на на вашем диске, где расскажет и покажет как вы используете Claude Code, где у вас сильные стороны, где слабые, что упускаете, что докрутить в вашем флоу использования CC.
🔥295👍2
Ждали Sonnet 5, а получили Opus 4.6

TLDR: 1M контекста, 128K выход, adaptive thinking, SOTA на агентном кодинге, бьёт GPT-5.2 на 144 Elo, Agent Teams в Claude Code, Claude в PowerPoint, $5/$25 за млн токенов.

Вчера произошло нечто новое для индустрии - Anthropic и OpenAI выкатили свои флагманы с разницей в 20-30 минут. Opus 4.6 и GPT-5.3-Codex в один день. Т.е. релизы не разнесли в разные дни, а намеренно выпустили почти одновременно, чтобы затмить инфоповод.

Что нового в модели:
- Контекст 1 млн токенов (но с пометкой "бета"). Впервые для Opusов
- Выходной контекст 128K токенов вместо 64K (без пометки бета)
- Adaptive thinking - модель сама решает, думать или нет и сколько. Старый budget_tokens помечен как deprecated (привет, ultrathink)
- Параметр effort с уровнями low/medium/high/max - на low может вообще не включать рассуждения для простых вопросов

Бенчмарки:
Terminal-Bench 2.0 (агентный кодинг) - 65.4%, на момент релиза лучший, но через полчаса Codex 5.3 показал 77.3%. ARC AGI 2 (абстрактное рассуждение) - 68.8% против 37.6% у Opus 4.5, рост на 83%. GDPval-AA (финансы/юриспруденция) - обгоняет GPT-5.2 на 144 Elo, Opus 4.5 на 190. Humanity's Last Exam (задачи уровня PhD), BrowseComp (поиск в сети), DeepSearchQA (многошаговый поиск) - лидер на всех трёх. Ну и мой любимый, Vending-Bench 2 (модель управляет вендинговым автоматом - закупки, продажи, цены) - Opus 4.6 заработал $8,017, Gemini 3 Pro $5,478, Opus 4.5 $4,967, GPT-5.2 $3,591.

Контекст в миллион токенов отдельная история. На тесте MRCR v2 (найди 8 иголок в миллионе токенов) - 76% точности (93% на 256К контекте). Sonnet 4.5 на том же тесте - 18.5%. Нужно тестировать, как минимум пока в Claude Code /context показывает всё те же 200К.

Что завезли в Claude Code:
Agent Teams (экспериментальное) - рой агентов, которые работают параллельно, могут общаться друг с другом и координурет их дядька Черномор (тим-лид). Каждый агент занимается своей задачей. Использовать с умом и осторожностью! Расскажу отдельным постом детали.
– Auto-memory. Нигде в релизе не увидел, но в CLI точно появилось. Агент записывает важные заметки о проекте между сессиями, особенно когда возникает ошибка, вы указываете на неё и агент запоминает это в память.

И небольшой бонус:
– Claude в PowerPoint (research preview) - читает лейауты, шрифты, slide masters и генерирует презентации с сохранением брендинга.

Что нового в API:
– Цена осталась та же - $5/$25 за млн токенов.
– Для тех, кто работает с разработкой через API, появился серверный Compaction API (бета). Вместо старой клиентской компрессии контекста теперь можно: задать точный порог срабатывания (от 50K токенов), поставить на паузу после сжатия и дописать важные сообщения, дать инструкции что сохранять при суммаризации, выстроить бюджет суммарных токенов. В ответе приходит детальный usage по каждой итерации. В Claude Code CLI по подписке этих ручек пока нет - там всё тот же авто-компакт с фиксированным порогом и /compact.

Детали о релизе в блоге у антропиков.

А теперь тестить, тестить!
18👍8🔥4
GPT-5.3-Codex: первая модель, которая помогала создавать саму себя

Выше рассказал про Opus 4.6, а теперь про вторую половину этой безумной ночи на релизы - GPT-5.3-Codex от OpenAI. Напомню: Anthropic и OpenAI выкатили флагманы с разницей в “минуты”, причём Anthropic дёрнулись первыми на 15 минут раньше оговоренного времени 😆 OpenAI пришлось догонять.

GPT-5.3-Codex объединяет кодинг-возможности GPT-5.2-Codex и рассуждения GPT-5.2 в одной модели, которая к тому же на 25% быстрее предшественника. Обучали на NVIDIA GB200 NVL72, тренировка модели в 4 раза быстрее прошлого поколения, новые версии можно катить каждые ~3 дня.

А вот размером контекста Сэм Альтман не хвалится, видимо без изменений, чтобы этой ночью не выглядеть в аутсайдерах. Маркетинг решает, у кого больше цифра, ну вы поняли! Хотя как говорят (Сэм говорит), важен не размер цифры, а как ты их используешь 😃

А теперь самое поразительное! OpenAI заявляют, что это первая модель, которая участвовала в собственном создании. Ранние версии GPT-5.3-Codex использовались для дебага собственного обучения, управления деплойментом и диагностики тестов. Т.е. новая модель буквально помогала строить и улучшать саму себя. Звучит как начало рекурсии, а если дать волю своему воображению, то становится страшновато!

Бенчмарки:
– Terminal-Bench 2.0 (агентный кодинг): 77.3%. Opus 4.6 на том же тесте показал 65.4%, GPT-5.2-Codex - 64.0%. Разрыв серьёзный.
– SWE-Bench Pro: 56.8%, рост минимальный, всего +0.4% к предшественнику.
– OSWorld-Verified (работа с десктопом, браузером, файлами): 64.7% при 38.2% у GPT-5.2-Codex - вот тут прирост на 26.5 пунктов, приближается к человеческому показателю в 72%.

Цена в API пока не объявлена. Для ориентира, GPT-5.2-Codex стоил $1.75/$14.00 за млн токенов, Opus 4.6 стоит $5/$25. Модель доступна в Codex (приложение, CLI, расширение для IDE, веб) на платных тарифах - Plus ($20/мес), Pro ($200/мес), Business, Enterprise. Лимиты запросов удвоили. И тут интересный момент: вход в Codex стоит $20 на Plus, а сопоставимый уровень в Claude Code - $100 на Max (или около того). OpenAI видимо может себе позволить демпинговать и отдавать дешевле.

Разработчики уже потестили оба флагмана и вот какая картина. Издание Every.to прогнало обе модели на задачах от простого лендинга до полного интернет-магазина с оплатой: Opus 4.6 набрал 9.25 из 10, Codex 5.3 - 7.5. На самой сложной задаче разрыв максимальный - Opus выдал полный рабочий чекаут, Codex сделал красивый дизайн, но пропустил критичные фичи.

Сооснователь Cursor Майкл Труэлл отмечает, что Opus 4.6 лучше на самых тяжёлых задачах. Саймон Уиллисон (авторитет в dev-сообществе, знаете такого?) более сдержан: “обе модели отличные, но и предшественники были отличные, трудно найти задачу, которую старые не тянули, а новые тянут.”

На реддите уже набирает обороты тред "Opus 4.6 стал хуже?" Жалуются, что кодинг улучшился, а качество генерации текстов просело. А вы используете опус для текстов вообще?

Итог ночи: 2 флагманские модели за минуты друг от друга. Каждый из нас выбирает сам, лучше конечно после тестов и сравнений, и вероятно каждую модель использовать под разный тип задач. Конкуренция работает, кожаные в плюсе.

Официальный релиз в блоге OpenAI.

Грядёт день (очень-очень рядом), когда тарифы за $200 будут базовыми, а все плюшки будут за $1000 или $2000. Скриньте!
Please open Telegram to view this post
VIEW IN TELEGRAM
112🔥2👍1
Узнаёте себя? 😬
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤣576🤔1
Халявные $50 на Opus 4.6

Кстати, я же вчера самое главное забыл вам сказать. Хотел в новость про Opus 4.6 добавить, но вылетело из головы.

Антропик раздает халявные $50 на тест Opus 4.6, особенно если хочется Agent Teams потестировать и не влететь по лимитам.

Если у вас есть подписка, то смело забирайте свои $50 на тест https://support.claude.com/en/articles/13613973-claude-opus-4-6-extra-usage-promo
11🔥9🤔1
Forwarded from Сиолошная
Anthropic запустили Opus 4.6-Fast: теперь модель работает в 2.5 раза быстрее (примерно 100 токенов в секунду), но и стоит в 6 раз больше. У тех, кто использует планы в Claude Code, просто быстрее будет съедаться квота (видимо, и недельная, и 5-часовая).

Чтобы включить модель, нужно написать /fast в Claude Code.

В твиттере уже начали гадать, мол, что это за оптимизации, а как так, а неужели они используют Groq/Cerebras, или же это TPU от Google такие крутые, что можно в 2.5 раза разогнать.

На самом деле я почти уверен, что с точки зрения железа ничего не менялось, и математика тут понятна: можно уменьшить размер батча (количество одновременно обрабатываемых сессий), что приведёт к быстрой генерации для каждого отдельного пользователя. Но тогда и выручка с единицы GPU падает, и нужно повысить цену для компенсации.

Semianalysis с осени поддерживают InferenceMAX, в котором запускают разные модели на разных видеокартах. И, например, DeepSeek R1 при генерации 100 токенов в секунду на сессию выдаёт в среднем 6000 токенов в секунду на GPU , а при разгоне в 2.5 раза до 250 т/с — падает до 1000 токенов в секунду на GPU.

Таким образом количество токенов падает в 6 раз, цена растёт, выручка и маржинальность не меняются.

Ждём, пока OpenAI наконец-то запустятся на Cerebras, чтобы давать 150+ токенов в секунду.
🔥6
Когда случайно запустил Opus 4.6 с включенным extra usage (оплата за токены) + agent teams в режиме /fast
🤣41👍21
OpenClaw

В этот раз я не стал прыгать в хайповый вагон (видимо, старею😄), и немного пересидел, переждал, пока хотя бы название у проекта устоится, а оно сменилось 3 раза буквально за 1,5 месяца. Да-да, я говорю про OpenClaw, агентный AI-ассистент, который работает у вас локально или на сервере, использует LLM, чтобы делать разные полезные штуки. Пока вы спите, он и отчет соберет, и на письма ответит, и кучу всего сделает. Да и не только пока спите. У него огромная база коннекторов, Телеграм, Ватсап, гугловые сервисы и др., а также куча скиллов, с помощью которых Claw делает для вас что-то полезное. Всё это дико кастомизируемо, можно писать свои скиллы и коннекторы и сделать под себя удобного ассистента.

Про OpenClaw разве что только книгу еще не написали. Хотяяя, может и книги уже существуют.

Я долго думал, как бы применить его для себя, и вчера решился развернуть его на VPS. Закинул на OpenRouter $10, дал OpenClaw API-ключ и подключил модель kimi-k2.5. Я не стал рисковать своей Claude-подпиской, так как Anthropic за использование OAuth не по назначению банит аккаунты. Но каждый чих, каждое сообщение, сжигали 1–2 цента, и эти $10 быстро таяли.

Тогда я решил купить базовую подписку на Kimi за $19/мес, кажется, её мне пока будет хватать. В ней также можно легко создать API-ключ через Kimi Code и использовать без опаски, сами Kimi везде делятся гайдом, как настроить OpenClaw + Kimi.

А еще сразу подключил API-ключ от Groq, чтобы можно было голосовые сообщения боту в ТГ кидать, а он бы транскрибировал и понимал, что я от него хочу. Руками часто лень писать или за рулем приходят мысли.

К слову, установить OpenClaw достаточно просто (либо просто мне так показалось), у него есть удобный онбординг-процесс при первом запуске, прописываем нужные ключи, подключаем все коннекторы, через которые с ним взаимодействовать, я подключил ТГ-бота под Claw. После старта (у меня в ТГ-боте), Claw знакомится с вами, узнаёт разные детали, имя, где живете, часовой пояс и прочие штуки. При тестировании ассистента я попросил напомнить мне, что в пятницу бассейн у дочери, и Claw, создав напоминание (тупо через cron), также поинтересовался, как звать дочь. И все эти факты запоминает в базу знаний, чтобы потом использовать при общении с вами.

И вот как я пока придумал потестировать OpenClaw для своих задач. У меня есть утренний ритуал: заглянуть в разные системы аналитики, изучить, как подрос MRR, proceeds и прочие метрики за вчера. Далее изучаю, как окупаются рекламные кампании. В некоторые дни недели, если вижу аномалии в цифрах, начинаю копать глубже, где-то что-то взлетело или, наоборот, просело. У меня для этого давно написаны разные скрипты или MCP, которые запускаются по запросу через Claude Code. Поэтому хочется, чтобы Claw собирал мне к утру отчет с этими показателями и делал выводы, отдельные аналитические скиллы еще предстоит создать под него. Опять же, лично мне, можно было бы обойтись и без OpenClaw, но хотелось его потестировать и понять, на чём же там дико хайпят. Рокетсайнса там никакого нет, при чём штука очень прожорливая и может легко зациклиться и увести вас в минус.

Если используете уже OpenClaw, поделитесь для чего, какие задачи с ним решаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
20👍8
Claude Cowork вышел под Windows

Windows часто обходят стороной и для него делают в последнюю очередь все новые приложения. И если вы ждали Claude Cowork для Windows, чтобы начать использовать агентный подход не для разработки, а для работы с файлами, ОС и всякими тулами/приложениями, то момент пришел.

Кстати, а расскажите, используете ли вы уже Cowork? Для каких задач? Как часто?

Скачать можно тут: https://claude.com/download
🔥9
Современное: «Не влезай, убьет!» 😁
🤣30😭7
MiniMax M2.5 - дешевая открытая модель из Китая перешла дорогу дорогим конкурентам

Китайская MiniMax за год прошла путь от M1 с 56% на SWE-Bench до M2.5 с 80.2%. А предыдущие три версии (M2, M2.1, M2.5) вообще вышли за последние 3.5 месяца.

Бенчмарки:
– SWE-Bench Verified: 80.2% (Opus 4.6 - 80.8%, GPT-5.2 - 78%, Gemini 3 Pro - 80%)
– Multi-SWE-Bench: 51.3% - обгоняет Opus 4.6 (50.3%) и Gemini 3 Pro (42.7%)
– SWE-Bench Pro: 55.4% (Opus 4.6 - 55.4%, GPT-5.2 - 54.1%)
– Terminal-Bench 2: 51.7% (Opus 4.6 - 55.1%, GPT-5.2 - 54%)
– Droid harness: 79.7% - обгоняет Opus 4.6 (78.9%)
– OpenCode harness: 76.1% - обгоняет Opus 4.6 (75.9%)
– BrowseComp (поиск): 76.3%
– GDPval-MM (офисные задачи): 59.0% win rate против конкурентов
– Скорость на SWE-Bench: 22.8 мин - почти идентична Opus 4.6 (22.9 мин)

Две варианта модели:
– M2.5-Lightning - 100 токенов/сек, $0.30/$2.40 за млн токенов. Для скорости.
– M2.5 - 50 токенов/сек, вдвое дешевле: $0.15/$1.20. Для экономии.
– Для сравнения: Opus 4.6 стоит $5/$25, что в 20 раз дороже минимакса.


– Full-stack разработка на 13 языках (Python, JS, TS, Go, Rust, C++, Kotlin и др.), от архитектуры до code review. Web, Android, iOS, Windows + серверная часть.
– Офисная работа: Word, PowerPoint, Excel с форматированием и финансовыми моделями
– Поиск и агентные задачи: BrowseComp 76.3%, на 20% меньше итераций чем M2.1
– $1 в час при непрерывной работе на 100 TPS, $0.30 на 50 TPS
– 80% кодовой базы самого MiniMax написано этой моделью, 30% задач компании автоматизировано через M2.5

Где попробовать:
agent.minimax.io
– API: platform.minimax.io (подписки от $10/мес)
– OpenRouter: модель minimax/minimax-m2.5
– В Qoder CLI, в Opencode пока бесплатно
– и множество других мест, где вам привычно и скорее всего там уже завезли минимакс м2.5

Удивление и уважение!
🔥165
1000 токенов в секунду

OpenAI начали “тратить” свой многомиллиардный контракт с Cerebras

Неделю назад вышел GPT-5.3-Codex с 77.3% на Terminal-Bench, который помогал создавать сам себя. А вчера OpenAI выкатили его младшего брата - Codex-Spark. Уменьшенная версия, заточенная под одну цель: скорость.

И скорость тут не метафора. 1000+ токенов в секунду. В 15 раз быстрее полноразмерного Codex. Те же задачи на SWE-Bench Pro, которые старший брат решает за 15-17 минут, Spark щёлкает за 2-3. Time-to-first-token на 50% быстрее (то самое ожидание, когда ты нажал Enter и смотришь на пустой экран), overhead ("накладные расходы" на каждый обмен сообщениями между твоим компом и сервером) на каждый раунд-трип снижен на 80%. Они ещё и persistent WebSocket прикрутили, чтобы не тратить время на переподключения.

Под капотом - Cerebras Wafer Scale Engine 3. OpenAI подписали многомиллиардный контракт с Cerebras в январе, и через 4 недели уже первый продукт на этом железе в продакшене. Молния!

Terminal-Bench 2.0: 58.4% у Spark против 77.3% у полного Codex. Но при этом Spark на голову выше предыдущего GPT-5.1-Codex-mini (46.1%). Контекст 128K токенов, только текст.

Идея в том, что скорость меняет сам процесс работы. Когда модель отвечает мгновенно, ты остаёшься в потоке, делаешь быстрые итерации, не теряешь мысль (не успеваешь позевать). Не 15 минут тишины, а секунды. Другой ритм (красные глаза нам обеспечены, теперь не получится отрываться от монитора в ожидании когда же закончит агент).

Доступно пока в виде research preview и только для подписчиков ChatGPT Pro в Codex. API обещают скоро. Цены не объявлены.

Все детали в релизе: https://openai.com/index/introducing-gpt-5-3-codex-spark (тут есть видео сравнение 5.3 и 5.3 spark. Скорость просто невероятная)
7🔥5👍3
Твиттер начал борьбу с ботами и AI автоматизациями

Теперь, если ваши действия в Х не имеют ничего общего с поведением человека (нет тапов по экрану, скроллов и т.п), ваш аккаунт сразу же будет приостанавливаться (а может и баниться) и все аккаунты с ним связанные.

Я понимаю, что эмуляция поведения человека на экране легко осуществима, но это как минимум поставит заградительную стену для простых и тупых массовых автоматизаций.

Никита Бир, глава продукта в Х, предупредил, что за любой автоматизированный постинг, сразу «пока». Учитывая, что Х оплачивает вознаграждения авторам за показы рекламы в их твитах, явно с автоматизацией нужно как-то бороться.

Сейчас всё чаще автоматизация постинга превращается в конвейер в погоне за просмотрами, лайками и конечно же продажами. Настроили очередной OpenClaw, подключили кросс постинг во все соц сети, и в ленту летят десятки публикаций в день. Проблема не в инструментах, а в том, что с появлением AI, ленты наводняются мусорным и однотипным контентом.

И кажется, чтобы соц сети не умерли, таких ограничений и детекций «Подтверди, что ты человек” будет всё больше. Началась война против AI автоматизации! Прольются реки и полетят баны 😎
1218🔥9
Управляем Effort для Opus 4.6

Я как-то не замечал ранее эту настройку Effort в /model. У меня выбрана модель Opus 4.6 по умолчанию в Claude Code CLI и я больше не захожу в настройки выбора модели. Но оказывается там появилась дополнительно настройка Effort и можно вручную установить уровень усилий рассуждений у модели Opus 4.6. Раньше то мы просто, руками в каждом запросе писали ultrathink.

Вызываем команду /model и далее стрелочками влево и вправо меняем под себя Effort. Вдруг вам не нужен high, чтобы не сжигать быстро лимиты. Есть 3 варианта: Low, Medium, High. По умолчанию установлен High.

Возможно кому-нибудь будет полезно, хотя я остался при своих High.
111👍1
OpenAI купили OpenClaw

Основатель Клешни будет заниматься созданием персональных агентов внутри OpenAI.

OpenClaw остаётся опенсорс проектом, который будет поддерживаться OpenAI
🔥31🤔102
Письмо Питера, основателя OpenClaw

Я присоединяюсь к OpenAI, чтобы работать над тем, чтобы агенты стали доступны каждому. OpenClaw перейдёт в формат фонда и останется открытым и независимым.

Последний месяц пронёсся как вихрь. Я и представить не мог, что мой «проект для души» вызовет такие волны. Интернет снова стал странным, и это было невероятно захватывающе — наблюдать, как моя работа вдохновляет людей по всему миру.

Передо мной открылся бесконечный спектр возможностей. Бесчисленное количество людей пытались направить меня в ту или иную сторону, давали советы, спрашивали, как можно инвестировать и что я собираюсь делать дальше. Сказать, что это ошеломляет, значит ничего не сказать.

Когда я начал исследовать AI, моей целью было получать удовольствие и вдохновлять других. И вот мы здесь — лобстер захватывает мир. Моя следующая миссия — создать агента, которым сможет пользоваться даже моя мама. А для этого потребуется гораздо более масштабный сдвиг, серьёзное осмысление вопросов безопасности и доступ к самым передовым моделям и исследованиям.

Да, я прекрасно вижу, как OpenClaw мог бы стать огромной компанией. И нет, меня это по-настоящему не вдохновляет. В душе я создатель. Я уже проходил путь построения компании — вложил в это 13 лет своей жизни и многому научился. Сейчас я хочу менять мир, а не строить ещё одну крупную компанию. И партнёрство с OpenAI — самый быстрый способ донести это до каждого.

Прошлую неделю я провёл в Сан-Франциско, общаясь с ведущими лабораториями, получая доступ к людям и ещё не опубликованным исследованиям. Это было вдохновляюще во всех смыслах. Я благодарен всем, с кем удалось пообщаться, и признателен за открывшиеся возможности.

Для меня всегда было важно, чтобы OpenClaw оставался open source и имел свободу развиваться. В итоге я почувствовал, что именно OpenAI — лучшее место, чтобы продолжать продвигать моё видение и расширять его масштаб. Чем больше я общался с людьми там, тем яснее становилось, что у нас общее понимание будущего.

Сообщество вокруг OpenClaw — это нечто по-настоящему особенное. OpenAI взяла на себя серьёзные обязательства, чтобы я мог посвящать проекту своё время, и уже выступает его спонсором. Чтобы придать этому правильную структуру, я работаю над созданием фонда. OpenClaw останется пространством для мыслителей, хакеров и всех, кто хочет владеть своими данными, с целью поддерживать ещё больше моделей и компаний.

Лично я невероятно рад присоединиться к OpenAI, стать частью передового края AI-исследований и разработки и продолжать строить будущее вместе с вами.

The claw is the law.


Оригинал на англ в его блоге.
🔥23👍1
Kimi выпустили Kimi Claw

Вот это я понимаю скорость и реакция! Никаких мак мини, отдельных серверов и их настроек, никаких терминалов. Запускайте собственного Краба прямо в облаке Kimi, который будет жить 24/7

– Доступ к ClawHub: 5,000+ скиллов от комьюнити.
– 40GB облачного хранилища: Для краба точно должно хватить.
– Или для своего текущего Claw прилинковать Kimi, запустив скрипт, который генерирует вам Kimi.
– Доступно минимально на тарифе Allegretto ($39/мес).

Скорее всего, что-то подобное и скорее более продвинуто с помощью Питера и команды, хочет сделать OpenAI.

Все детали тут.
17🔥7👍2
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
Я проверяю пуллреквесты Claude Code перед деплоем в прод
🤣73
Разница поколений

Вроде краб и там и там, а дофамин раньше был другой, не то что сейчас 😬
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣183🔥1