Не спрашивайте ИИ – заставьте его думать
Пока одни хоронят промпты, я продолжаю разбирать эту тему в подписке на Boosty. Собственно, вот новый лонгрид:
Как заставить ИИ думать глубже: 8 техник сильного промптинга
Действительно, агентские системы сейчас быстро вытесняют чат-боты. Но умение правильно писать запросы нужно и в работе с ними – иначе вы потратите больше времени, а результат будет хуже.
Кроме того, промпты – это универсальный язык обмена идеями. В основу сегодняшнего лонгрида я положил свои любимые техники, которыми пользуюсь месяцами. Но когда закончил работу, то понял – чего-то не хватает.
Я попросил Opus 4.6 и GPT-5.4 предложить, чем еще дополнить подборку. Отобрал самые интересные варианты, начал проверять и… вылетел из жизни на несколько часов – настолько свежими и интересными были многие подходы. Поделюсь, например, least-to-most (декомпозиция):
Другие классные промпты читайте в лонгриде. А в подписке уже накопилось 5 текстов, полезных любому, кто работает с ИИ.
Самое время присоединиться!
Пока одни хоронят промпты, я продолжаю разбирать эту тему в подписке на Boosty. Собственно, вот новый лонгрид:
Как заставить ИИ думать глубже: 8 техник сильного промптинга
Действительно, агентские системы сейчас быстро вытесняют чат-боты. Но умение правильно писать запросы нужно и в работе с ними – иначе вы потратите больше времени, а результат будет хуже.
Кроме того, промпты – это универсальный язык обмена идеями. В основу сегодняшнего лонгрида я положил свои любимые техники, которыми пользуюсь месяцами. Но когда закончил работу, то понял – чего-то не хватает.
Я попросил Opus 4.6 и GPT-5.4 предложить, чем еще дополнить подборку. Отобрал самые интересные варианты, начал проверять и… вылетел из жизни на несколько часов – настолько свежими и интересными были многие подходы. Поделюсь, например, least-to-most (декомпозиция):
У меня есть канал в Telegram на 19 тысяч подписчиков, вдобавок к нему я хочу запустить платную подписку на Boosty. Разбери эту задачу по принципу least-to-most, поясни, что от меня требуется на каждом этапе и какие риски могут быть.
Другие классные промпты читайте в лонгриде. А в подписке уже накопилось 5 текстов, полезных любому, кто работает с ИИ.
Самое время присоединиться!
1🔥48❤20👍14😁13
Мифическая капибара
Сегодня разбираем свежую утечку документов Anthropic: из-за кривой настройки CMS в открытом доступе оказались черновики постов о Claude Mythos и Capybara. Судя по всему, это одна и та же модель: текст в постах не отличается, поэтому в компании, похоже, выбирают одно из двух названий.
Амбиции впечатляют: уже сейчас Opus считается одной из самых больших моделей на рынке, но пост обещает, что Mythos станет еще больше. Интересный факт: весь 2025 год в ИИ-сообществе доминировал подход, что нет смысла дальше увеличивать размер модели, сгружая в нее все новые и новые знания – ИИ таким образом больше не умнеет, а вот находить качественные данные для обучения становится все сложнее. По слухам, та же GPT-5 – небольшая модель, при создании которой ресурсы были вложены в пост-тренировку (обучение модели лучше отвечать на вопросы) и улучшение цепочки рассуждений.
Но в конце года Gemini 3 Pro и Opus 4.5 показали, что большие модели легко могут брать первые места в бенчмарках. Особенно интересен Opus 4.5 / 4.6 – во многих тестах версия без режима рассуждений держится на уровне рассуждающей и даже превосходит ее.
Так что в 2026 году мы видим возвращение к старому подходу. По словам Илона Маска, размер Grok 5 будет в 6 трлн параметров – в 2-3 раза больше Grok 4. OpenAI также признала, что недостаточно вкладывалась в предварительное обучение – и в последних версиях GPT стала исправлять этот недостаток. Ну а теперь Anthropic, похоже, готовится задать новую планку.
По информации из поста, в ранних тестах Mythos показывает существенный прирост в заданиях на логику, написание кода и кибербезопасность – иронично, что Anthropic, утверждая о прорыве в кибербезе, сама допустила утечку информации из-за ошибки в конфигурации CMS 😄
Шутки шутками, но сразу после появления блог-поста, акции компаний, занимающихся кибербезом, мощно упали. В самой Anthropic опасаются, что у роста возможностей модели в этой области может быть обратная сторона – если злоумышленники найдут, как обойти алгоритмы защиты Mythos, то модель может быть использована для взлома. По этой причине Mythos пока тестируется группой клиентов, которым Anthropic доверяет больше всего.
Другая проблема – большая модель намного дороже в обслуживании, а у Anthropic и так одни из самых высоких цен на рынке. Тот же Opus 4.6 свободно получается использовать только на подписках Max ценой в 100 и 200 долларов – но после выхода Mythos, как мне кажется, даже на этих планах придется аккуратно подходить к выбору модели.
С другой стороны – у Anthropic нет модели уровня GPT-5.4 Pro или Gemini 3.1 Deep Think, доступной только на про-подписках, зачастую с ограничениями (у Deep Think 10 запросов в день).
Плюс в Anthropic уже работают над тем, чтобы сделать Mythos доступнее для массового пользователя – возможно, облегченные версии модели лягут в основу новых Opus и Sonnet. Хорошо, если они унаследуют высокие характеристики в кибербезе – сейчас большим препятствием в распространении OpenClaw и других ИИ-агентов являются опасения в их неустойчивости ко взлому. Новые модели могут решить этот вопрос.
В Anthropic подтвердили утечку, но не стали раскрывать дополнительных деталей, в том числе насчет даты выхода. Но полагаю, что компании придется поторопиться с запуском как минимум облегченных версий Mythos – ведь OpenAI готовит ответ.
Уже сейчас GPT-5.4 Thinking во многих областях идет наравне и даже обходит Opus 4.6. При этом во внутреннем письме к сотрудникам OpenAI, Сэм Альтман рассказал о завершении предварительной тренировки новой модели под кодовым названием Spud. Интересно, что ради Spud компания приостановила разработку Sora, а внутри OpenAI появился отдел AGI Deployment – запуска AGI. Насколько крутыми будут новые модели – узнаем совсем скоро, ведь по данным из того же письма, запуск Spud намечен на ближайшие недели.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
Сегодня разбираем свежую утечку документов Anthropic: из-за кривой настройки CMS в открытом доступе оказались черновики постов о Claude Mythos и Capybara. Судя по всему, это одна и та же модель: текст в постах не отличается, поэтому в компании, похоже, выбирают одно из двух названий.
Амбиции впечатляют: уже сейчас Opus считается одной из самых больших моделей на рынке, но пост обещает, что Mythos станет еще больше. Интересный факт: весь 2025 год в ИИ-сообществе доминировал подход, что нет смысла дальше увеличивать размер модели, сгружая в нее все новые и новые знания – ИИ таким образом больше не умнеет, а вот находить качественные данные для обучения становится все сложнее. По слухам, та же GPT-5 – небольшая модель, при создании которой ресурсы были вложены в пост-тренировку (обучение модели лучше отвечать на вопросы) и улучшение цепочки рассуждений.
Но в конце года Gemini 3 Pro и Opus 4.5 показали, что большие модели легко могут брать первые места в бенчмарках. Особенно интересен Opus 4.5 / 4.6 – во многих тестах версия без режима рассуждений держится на уровне рассуждающей и даже превосходит ее.
Так что в 2026 году мы видим возвращение к старому подходу. По словам Илона Маска, размер Grok 5 будет в 6 трлн параметров – в 2-3 раза больше Grok 4. OpenAI также признала, что недостаточно вкладывалась в предварительное обучение – и в последних версиях GPT стала исправлять этот недостаток. Ну а теперь Anthropic, похоже, готовится задать новую планку.
По информации из поста, в ранних тестах Mythos показывает существенный прирост в заданиях на логику, написание кода и кибербезопасность – иронично, что Anthropic, утверждая о прорыве в кибербезе, сама допустила утечку информации из-за ошибки в конфигурации CMS 😄
Шутки шутками, но сразу после появления блог-поста, акции компаний, занимающихся кибербезом, мощно упали. В самой Anthropic опасаются, что у роста возможностей модели в этой области может быть обратная сторона – если злоумышленники найдут, как обойти алгоритмы защиты Mythos, то модель может быть использована для взлома. По этой причине Mythos пока тестируется группой клиентов, которым Anthropic доверяет больше всего.
Другая проблема – большая модель намного дороже в обслуживании, а у Anthropic и так одни из самых высоких цен на рынке. Тот же Opus 4.6 свободно получается использовать только на подписках Max ценой в 100 и 200 долларов – но после выхода Mythos, как мне кажется, даже на этих планах придется аккуратно подходить к выбору модели.
С другой стороны – у Anthropic нет модели уровня GPT-5.4 Pro или Gemini 3.1 Deep Think, доступной только на про-подписках, зачастую с ограничениями (у Deep Think 10 запросов в день).
Плюс в Anthropic уже работают над тем, чтобы сделать Mythos доступнее для массового пользователя – возможно, облегченные версии модели лягут в основу новых Opus и Sonnet. Хорошо, если они унаследуют высокие характеристики в кибербезе – сейчас большим препятствием в распространении OpenClaw и других ИИ-агентов являются опасения в их неустойчивости ко взлому. Новые модели могут решить этот вопрос.
В Anthropic подтвердили утечку, но не стали раскрывать дополнительных деталей, в том числе насчет даты выхода. Но полагаю, что компании придется поторопиться с запуском как минимум облегченных версий Mythos – ведь OpenAI готовит ответ.
Уже сейчас GPT-5.4 Thinking во многих областях идет наравне и даже обходит Opus 4.6. При этом во внутреннем письме к сотрудникам OpenAI, Сэм Альтман рассказал о завершении предварительной тренировки новой модели под кодовым названием Spud. Интересно, что ради Spud компания приостановила разработку Sora, а внутри OpenAI появился отдел AGI Deployment – запуска AGI. Насколько крутыми будут новые модели – узнаем совсем скоро, ведь по данным из того же письма, запуск Spud намечен на ближайшие недели.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
👍60🔥23❤18😁3🥰1👏1
Если правда, то это даже не выстрел в ногу, а сразу бросок гранаты без чеки
Прямо сейчас ИИ из продвинутого болтуна и забавного собеседника превращается в главный рабочий инструмент, ускоряющий экономику. Это пока плохо видно в статистике – она запаздывает, плюс не до конца понятно, как вычислять эффект от ИИ, который в основном используют “снизу”. Но это очевидно почти всем, кто работает в сфере ИИ и IT – люди, которые еще полгода назад посмеивались над навайбкоженными программами, сегодня не пишут ни строки кода без помощи Claude Code.
В России самые мощные модели ИИ заблокированы их разработчиками. Чтобы работать в Claude Code, Codex, настроить OpenClaw – приходится искать способы обхода этих блокировок, а также варианты оплаты через чужой регион. Многие сдаются, уходя на бесплатные версии или китайские модели попроще, кто доходит до конца – платит за подписку на 20-30% больше. Если утечка подтвердится, то в ближайшее время этот путь может стать еще более сложным.
Конечно, можно успокаивать себя тем, что наши-то возьмут и сделают свой ИИ ничуть не хуже заморского…
Нет, не сделают.
Чтобы натренировать хороший ИИ, нужно три вещи: парк ИИ-ускорителей, качественный датасет и хорошие ML-программисты. По ускорителям Россия полностью отрезана от официальных белых каналов. Их рынок контролируется США, а санкции в отношении России в этой области – одни из самых жестких. Даже в Китай допускается поставка урезанных версий чипов, к нам же – никаких.
Какое-то количество чипов ввозится серыми каналами, какие-то модели можно дообучить на зарубежных облачных площадках, но это просто другой масштаб. По этой оценке, парк ускорителей в России составляет около 20 тысяч устаревших A100. Для сравнения – в Epoch AI считают, что GPT-5 тренировали на 180-200 тысячах более мощных H200. А ведь это модель, устаревшая почти на 8 месяцев.
Видел новость, что один отечественный разработчик запросил 450 млрд рублей на строительство дата-центра для обучения ИИ – и получил отказ. Кстати, ведущие ИИ-компании США в 2026 году также вложат в инфраструктуру около 450 млрд – только долларов, а не рублей. Сравните масштаб.
Что дальше – качественные дата-сеты? В условиях, когда на интернет постоянно накладывают ограничения, собрать их будет очень непросто. Разработчики отечественных моделей любят делать упор на то, что они лучше справляются с русским языком, но будем честными – последние версии Gemini и Opus замечательно пишут на русском. Передовой ИИ должен хорошо писать код, разбираться в математике и офисных задачах – и здесь без международных материалов не обойтись.
Наконец, специалисты. Я с большим уважением отношусь к отечественным айтишникам, работаю рядом с ними и знаю, как много среди них талантливых ребят. Но помимо таланта важен и опыт, а его куда проще набрать в OpenAI, Anthropic или xAI с их практически неограниченными ресурсами. Я стараюсь следить за научными исследованиями в области ИИ – и работ из России вижу крошечный процент.
Как мне кажется, в таких условиях удастся создать ИИ, отстающий от лидеров минимум на год-полтора. И если для какой-то индустрии такое отставание ничего не значит, то в случае с ИИ – это пропасть между “кодит ерунду” и “пишет 90% моего кода”.
Дальше прогресс будет ускоряться: уже сейчас передовые модели Anthropic и OpenAI используются для улучшения своих будущих версий – и эффект на каждом новом витке может стать выше.
По грубой оценке, есть 1-3 года до момента, пока ИИ не начнет драматически влиять на все сферы экономики. И если за это время не решить проблему с широкой доступностью передовых моделей – мы рискуем отстать навсегда.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ, а в ближайшее время планирую начать публиковать распечатки программ для Радио РК-86 и схемы сборки ZX-Spectrum.
Прямо сейчас ИИ из продвинутого болтуна и забавного собеседника превращается в главный рабочий инструмент, ускоряющий экономику. Это пока плохо видно в статистике – она запаздывает, плюс не до конца понятно, как вычислять эффект от ИИ, который в основном используют “снизу”. Но это очевидно почти всем, кто работает в сфере ИИ и IT – люди, которые еще полгода назад посмеивались над навайбкоженными программами, сегодня не пишут ни строки кода без помощи Claude Code.
В России самые мощные модели ИИ заблокированы их разработчиками. Чтобы работать в Claude Code, Codex, настроить OpenClaw – приходится искать способы обхода этих блокировок, а также варианты оплаты через чужой регион. Многие сдаются, уходя на бесплатные версии или китайские модели попроще, кто доходит до конца – платит за подписку на 20-30% больше. Если утечка подтвердится, то в ближайшее время этот путь может стать еще более сложным.
Конечно, можно успокаивать себя тем, что наши-то возьмут и сделают свой ИИ ничуть не хуже заморского…
Нет, не сделают.
Чтобы натренировать хороший ИИ, нужно три вещи: парк ИИ-ускорителей, качественный датасет и хорошие ML-программисты. По ускорителям Россия полностью отрезана от официальных белых каналов. Их рынок контролируется США, а санкции в отношении России в этой области – одни из самых жестких. Даже в Китай допускается поставка урезанных версий чипов, к нам же – никаких.
Какое-то количество чипов ввозится серыми каналами, какие-то модели можно дообучить на зарубежных облачных площадках, но это просто другой масштаб. По этой оценке, парк ускорителей в России составляет около 20 тысяч устаревших A100. Для сравнения – в Epoch AI считают, что GPT-5 тренировали на 180-200 тысячах более мощных H200. А ведь это модель, устаревшая почти на 8 месяцев.
Видел новость, что один отечественный разработчик запросил 450 млрд рублей на строительство дата-центра для обучения ИИ – и получил отказ. Кстати, ведущие ИИ-компании США в 2026 году также вложат в инфраструктуру около 450 млрд – только долларов, а не рублей. Сравните масштаб.
Что дальше – качественные дата-сеты? В условиях, когда на интернет постоянно накладывают ограничения, собрать их будет очень непросто. Разработчики отечественных моделей любят делать упор на то, что они лучше справляются с русским языком, но будем честными – последние версии Gemini и Opus замечательно пишут на русском. Передовой ИИ должен хорошо писать код, разбираться в математике и офисных задачах – и здесь без международных материалов не обойтись.
Наконец, специалисты. Я с большим уважением отношусь к отечественным айтишникам, работаю рядом с ними и знаю, как много среди них талантливых ребят. Но помимо таланта важен и опыт, а его куда проще набрать в OpenAI, Anthropic или xAI с их практически неограниченными ресурсами. Я стараюсь следить за научными исследованиями в области ИИ – и работ из России вижу крошечный процент.
Как мне кажется, в таких условиях удастся создать ИИ, отстающий от лидеров минимум на год-полтора. И если для какой-то индустрии такое отставание ничего не значит, то в случае с ИИ – это пропасть между “кодит ерунду” и “пишет 90% моего кода”.
Дальше прогресс будет ускоряться: уже сейчас передовые модели Anthropic и OpenAI используются для улучшения своих будущих версий – и эффект на каждом новом витке может стать выше.
По грубой оценке, есть 1-3 года до момента, пока ИИ не начнет драматически влиять на все сферы экономики. И если за это время не решить проблему с широкой доступностью передовых моделей – мы рискуем отстать навсегда.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ, а в ближайшее время планирую начать публиковать распечатки программ для Радио РК-86 и схемы сборки ZX-Spectrum.
7👍209❤56🔥31👏17😁15
Knowledge cutoff – что за параметр ИИ и как с ним работать
Обучение большой языковой модели занимает от нескольких недель до нескольких месяцев. Да и данные, на которых тренируется модель, нужно подготовить – убрать из корпуса знаний совсем мусор, сделать разметку с пояснениями, где хороший пример текста, а где плохой.
В результате у всех моделей есть knowledge cutoff – дата (обычно месяц), по которую у них есть знания. Кстати, граница эта нечеткая: корпуса знаний для тренировки огромные, поэтому в них могут пропустить и какие-то события внутри knowledge cutoff и добавить что-то за его пределами.
C недавнего времени Anthropic стала давать сразу две даты для моделей Claude. Reliable knowledge cutoff – дата, по которую у ИИ есть уверенные знания. И Training knowledge cutoff – дата, по которую у модели есть частичные знания. Z бы проверял информацию внутри этого промежутка более тщательно.
В табличке в начале поста я собрал knowledge cutoff для большинства популярных моделей. В случае с ИИ от Google, Anthropic и OpenAI эту информацию можно взять из системных карточек моделей, то, например, с китайцами пришлось повозиться.
На вопрос what is your knowledge cutoff честно ответила только Kimi K2.5. С остальными пришлось проворачивать следующий промпт:
Если модель расскажет про реальные события – месяц попадает в ее корпус знаний. В противном случае ИИ соберет заранее известные события: даты праздников и запланированных крупных политических, общественных и спортивных мероприятий. С помощью нескольких таких промптов можно примерно вычислить нужный месяц.
Но если ИИ умеет добирать нужную информацию в интернете, то нужно ли вообще беспокоиться о его knowledge cuttof? Нужно: данные из корпуса знаний, заранее отобранные и проверенные специалистами, почти всегда качественные, а вот с тем, что нашлось в сети, есть проблемы.
К счастью, современные модели неплохо умеет отличать совсем уж дикую желтуху от качественной информации. Но дело в другом. Во-первых, проверяйте, додумалась ли модель вообще использовать поиск – обычно она пишет об этом серым шрифтом во время генерации ответа. Во-вторых, ИИ может банально не найти нужную информацию – по каким запросам он “гуглит” обычно можно увидеть, кликнув по тому же серому шрифту.
И третий, самый сложный, кейс – когда модели предстоит работать с событием, которое растянуто по времени на несколько недель, то она может найти только текущую ситуацию, но не собрать контекст предыдущих недель. В итоге ИИ будет путаться, додумывать ответы и давать неправильные оценки.
Лучшей в веб-поиске я считаю GPT-5.4 Thinking – она докапывается до неочевидных фактов и проверяет максимум деталей. Цена этого – даже на не очень сложный вопрос модель может отвечать до нескольких минут. Плюс мне не нравится стиль ее ответов.
Поэтому чаще я работаю с Opus 4.6 и там использую другой подход – он же подойдет для большинства ИИ. Knowledge cutoff этой модели август 2025 года, поэтому диалоги о более поздних событиях я начинаю со сбора информации. Например, если мне нужно установить или настроить OpenClaw, то стартую с такого промпта:
Или, например, я хочу прогнать через Opus 4.6 последние новости о лунной миссии Artemis II. Тут важно, чтобы у модели была хронология:
В некоторых случаях модель и сама догадается собрать всю нужную информацию. Но такой подход надежнее, плюс у него есть еще один плюс – информация окажется в одном месте и в самом начале беседы, где модели будет проще ее читать при следующих запросах.
Кстати, на Boosty у меня есть отдельный лонгрид о том, какие характеристики моделей надо знать обычному пользователю. Не забывайте оформлять подписку – это всего 500 рублей в месяц за знания и практический опыт.
Обучение большой языковой модели занимает от нескольких недель до нескольких месяцев. Да и данные, на которых тренируется модель, нужно подготовить – убрать из корпуса знаний совсем мусор, сделать разметку с пояснениями, где хороший пример текста, а где плохой.
В результате у всех моделей есть knowledge cutoff – дата (обычно месяц), по которую у них есть знания. Кстати, граница эта нечеткая: корпуса знаний для тренировки огромные, поэтому в них могут пропустить и какие-то события внутри knowledge cutoff и добавить что-то за его пределами.
C недавнего времени Anthropic стала давать сразу две даты для моделей Claude. Reliable knowledge cutoff – дата, по которую у ИИ есть уверенные знания. И Training knowledge cutoff – дата, по которую у модели есть частичные знания. Z бы проверял информацию внутри этого промежутка более тщательно.
В табличке в начале поста я собрал knowledge cutoff для большинства популярных моделей. В случае с ИИ от Google, Anthropic и OpenAI эту информацию можно взять из системных карточек моделей, то, например, с китайцами пришлось повозиться.
На вопрос what is your knowledge cutoff честно ответила только Kimi K2.5. С остальными пришлось проворачивать следующий промпт:
Не используя поиск в сети, назови главные события января 2025 года.
Если модель расскажет про реальные события – месяц попадает в ее корпус знаний. В противном случае ИИ соберет заранее известные события: даты праздников и запланированных крупных политических, общественных и спортивных мероприятий. С помощью нескольких таких промптов можно примерно вычислить нужный месяц.
Но если ИИ умеет добирать нужную информацию в интернете, то нужно ли вообще беспокоиться о его knowledge cuttof? Нужно: данные из корпуса знаний, заранее отобранные и проверенные специалистами, почти всегда качественные, а вот с тем, что нашлось в сети, есть проблемы.
К счастью, современные модели неплохо умеет отличать совсем уж дикую желтуху от качественной информации. Но дело в другом. Во-первых, проверяйте, додумалась ли модель вообще использовать поиск – обычно она пишет об этом серым шрифтом во время генерации ответа. Во-вторых, ИИ может банально не найти нужную информацию – по каким запросам он “гуглит” обычно можно увидеть, кликнув по тому же серому шрифту.
И третий, самый сложный, кейс – когда модели предстоит работать с событием, которое растянуто по времени на несколько недель, то она может найти только текущую ситуацию, но не собрать контекст предыдущих недель. В итоге ИИ будет путаться, додумывать ответы и давать неправильные оценки.
Лучшей в веб-поиске я считаю GPT-5.4 Thinking – она докапывается до неочевидных фактов и проверяет максимум деталей. Цена этого – даже на не очень сложный вопрос модель может отвечать до нескольких минут. Плюс мне не нравится стиль ее ответов.
Поэтому чаще я работаю с Opus 4.6 и там использую другой подход – он же подойдет для большинства ИИ. Knowledge cutoff этой модели август 2025 года, поэтому диалоги о более поздних событиях я начинаю со сбора информации. Например, если мне нужно установить или настроить OpenClaw, то стартую с такого промпта:
Мы будем работать с OpenClaw. Прочти в сети общую информацию об этом ИИ-агенте, а также найди и прочитай техническую документацию на него.
Или, например, я хочу прогнать через Opus 4.6 последние новости о лунной миссии Artemis II. Тут важно, чтобы у модели была хронология:
Мы будем обсуждать новости об Artemis II. Найди и прочитай свежую хронологию этой миссии.
В некоторых случаях модель и сама догадается собрать всю нужную информацию. Но такой подход надежнее, плюс у него есть еще один плюс – информация окажется в одном месте и в самом начале беседы, где модели будет проще ее читать при следующих запросах.
Кстати, на Boosty у меня есть отдельный лонгрид о том, какие характеристики моделей надо знать обычному пользователю. Не забывайте оформлять подписку – это всего 500 рублей в месяц за знания и практический опыт.
2❤48👍30🔥14👏2😁2
Разбираем возможные обновления Claude Code
Раз уж сегодня 1 апреля, то начнем с анекдота последних дней. Я уже писал, что Anthropic завершила работу над очередной моделью – Claude Mythos/Capybara. Новинка уже тестируется избранными партнерами, а отдельно в Anthropic отмечают то, насколько сильна “Капибара” стала в кибербезопасности.
Оно и видно: про Mythos/Capybara несколько дней назад все узнали из черновиков блог-постов, которые утекли в сеть из-за неправильной настройки CMS компании. А следом по ошибке одного из сотрудников в сеть утек исходный код Claude Code. Все 512 тысяч строк – и никакая капибара не помогла.
Утечка настолько мощная, что разбирать подробности ИИ-сообщество будет несколько дней. Пока вытащил самое интересное – скрытые функции, которые уже написаны, но еще не выпущены.
KAIROS
Пожалуй, самая мощная разработка. В этом режиме Claude Code превращается из инструмента, который ждет команды пользователя, в самостоятельного агента.
Раз в определенное время Claude получает “тики” – сигналы, по которым решает, нужно ли что-то сделать. Подписывается на вебхуки GitHub, ведет ежедневные логи, а когда пользователь не работает – запускает процесс под названием autoDream.
Да, “Клод видит сны”: отдельный субагент анализирует проделанную работу и переносит все полезные знания в файлы памяти. Очень похожий алгоритм уже реализован в OpenClaw. Добавляем сюда то, что Anthropic уже реализовала возможность управлять Claude Code через мобильное приложение – и делаем вывод, что компания думает об аналоге OpenClaw, но заточенном под кодинг и безопасность.
ULTRAPLAN / ULTRAREVIEW
В Claude Code уже есть режим планирования, вызываемый командой /plan – в нем модель задает пользователю вопросы и предлагает архитектуру будущего проекта. Судя по всему, ULTRAPLAN – режим планирования на максималках. Он работает на Opus 4.6 и запускается в отдельном контейнере, а на планирование тратит до 30 минут. За процессом можно наблюдать удаленно: если результат нравится, то одобрить, если нет – отправить на переработку.
ULTRAPLAN пригодится там, где обычного режима недостаточно – масштабный рефакторинг, миграция архитектуры, сложная отладка и т. д. Также в коде нашли ULTRAREVIEW – нечто похожее, но для код-ревью.
Coordinator
Это или развитие уже существующего режима Agent Teams или его альтернативная версия. Идея похожая: есть ИИ-координатор, который рулит сразу несколькими агентами, независимо работающими над разными частями проекта.
Процесс организован масштабно: воркеры исследуют кодовую базу, тимлид раздает им задачи, а для проверки привлекается даже “адвокат дьявола” – отдельный ИИ-агент, прогоняющий результат через многочисленные тесты.
Buddy
И обновление, которое доступно уже сейчас: запускайте Claude Code, обновляйте до последней версии, пишите /buddy – и ловите питомца!
Именно так – не всем же обновлениям быть серьезными! Buddy – это встроенный в Claude Code питомец-тамагочи (!) с гача-механикой (!!!). При первом запуске выпадает существо одного из 18 видов — от Dustbunny и Mossfrog до легендарного Nebulynx.
Вид определяется хешем аккаунта: один пользователь — всегда один и тот же питомец. Шанс получить легендарного — 1%, а поверх этого есть отдельный 1% на “блестящую” версию. Блестящий легендарный Nebulynx — шанс 0,01%.
У каждого питомца пять характеристик: Debugging, Patience, Chaos, Wisdom и Snark. Плюс стили глаз, шляпы (часть привязаны к редкости), ASCII-спрайты с анимацией и “описание души”, которое Claude пишет при первом вылуплении.
Я уже своего поймал – досталась… капибара! Буду кормить ее получше, чтобы не слила в сеть какие-нибудь мои секреты.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
Раз уж сегодня 1 апреля, то начнем с анекдота последних дней. Я уже писал, что Anthropic завершила работу над очередной моделью – Claude Mythos/Capybara. Новинка уже тестируется избранными партнерами, а отдельно в Anthropic отмечают то, насколько сильна “Капибара” стала в кибербезопасности.
Оно и видно: про Mythos/Capybara несколько дней назад все узнали из черновиков блог-постов, которые утекли в сеть из-за неправильной настройки CMS компании. А следом по ошибке одного из сотрудников в сеть утек исходный код Claude Code. Все 512 тысяч строк – и никакая капибара не помогла.
Утечка настолько мощная, что разбирать подробности ИИ-сообщество будет несколько дней. Пока вытащил самое интересное – скрытые функции, которые уже написаны, но еще не выпущены.
KAIROS
Пожалуй, самая мощная разработка. В этом режиме Claude Code превращается из инструмента, который ждет команды пользователя, в самостоятельного агента.
Раз в определенное время Claude получает “тики” – сигналы, по которым решает, нужно ли что-то сделать. Подписывается на вебхуки GitHub, ведет ежедневные логи, а когда пользователь не работает – запускает процесс под названием autoDream.
Да, “Клод видит сны”: отдельный субагент анализирует проделанную работу и переносит все полезные знания в файлы памяти. Очень похожий алгоритм уже реализован в OpenClaw. Добавляем сюда то, что Anthropic уже реализовала возможность управлять Claude Code через мобильное приложение – и делаем вывод, что компания думает об аналоге OpenClaw, но заточенном под кодинг и безопасность.
ULTRAPLAN / ULTRAREVIEW
В Claude Code уже есть режим планирования, вызываемый командой /plan – в нем модель задает пользователю вопросы и предлагает архитектуру будущего проекта. Судя по всему, ULTRAPLAN – режим планирования на максималках. Он работает на Opus 4.6 и запускается в отдельном контейнере, а на планирование тратит до 30 минут. За процессом можно наблюдать удаленно: если результат нравится, то одобрить, если нет – отправить на переработку.
ULTRAPLAN пригодится там, где обычного режима недостаточно – масштабный рефакторинг, миграция архитектуры, сложная отладка и т. д. Также в коде нашли ULTRAREVIEW – нечто похожее, но для код-ревью.
Coordinator
Это или развитие уже существующего режима Agent Teams или его альтернативная версия. Идея похожая: есть ИИ-координатор, который рулит сразу несколькими агентами, независимо работающими над разными частями проекта.
Процесс организован масштабно: воркеры исследуют кодовую базу, тимлид раздает им задачи, а для проверки привлекается даже “адвокат дьявола” – отдельный ИИ-агент, прогоняющий результат через многочисленные тесты.
Buddy
И обновление, которое доступно уже сейчас: запускайте Claude Code, обновляйте до последней версии, пишите /buddy – и ловите питомца!
Именно так – не всем же обновлениям быть серьезными! Buddy – это встроенный в Claude Code питомец-тамагочи (!) с гача-механикой (!!!). При первом запуске выпадает существо одного из 18 видов — от Dustbunny и Mossfrog до легендарного Nebulynx.
Вид определяется хешем аккаунта: один пользователь — всегда один и тот же питомец. Шанс получить легендарного — 1%, а поверх этого есть отдельный 1% на “блестящую” версию. Блестящий легендарный Nebulynx — шанс 0,01%.
У каждого питомца пять характеристик: Debugging, Patience, Chaos, Wisdom и Snark. Плюс стили глаз, шляпы (часть привязаны к редкости), ASCII-спрайты с анимацией и “описание души”, которое Claude пишет при первом вылуплении.
Я уже своего поймал – досталась… капибара! Буду кормить ее получше, чтобы не слила в сеть какие-нибудь мои секреты.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
❤67😁33🔥17👍11👏2
Через текст к AGI?
Президент OpenAI Грег Брокманн дал интервью Алексу Кантровицу, в котором поделился планами компании на ближайшее и отдаленное будущее, а также пояснил, почему были приняты некоторые решения – в том числе, почему компания остановила разработку Sora. С ней кстати все просто: основная цель OpenAI – достичь AGI, пресловутого общего ИИ, который будет справляться с любой интеллектуальной работой, доступной человеку.
Долгое время к языковым моделям вроде GPT выдвигали одну большую претензию – они отлично ориентируются в текстах, но не понимают, как устроен реальный мир. Модели писали красивые тексты, но начинали “плыть” в относительных размерах предметов и оценке того, как быстро идет время.
Буквально год назад никто не знал, можно ли исправить эту проблему или она в какой-то момент станет препятствием в дальнейшем развитии текстовых моделей. Поэтому крупные исследователи параллельно экспериментировали с “моделями мира”, обучаемыми на видео. Некоторые и вовсе утверждали, что только через них можно достичь AGI – так, например, считает один из отцов машинного обучения Ян Лекун, который обучает свою линейку JEPA (простите) именно на визуальных материалах.
OpenAI шла к моделям мира через Sora, но сейчас, по словам Брокманна, в компании видят, что текстовые модели все лучше понимают реальный мир и его правила. Тут соглашусь: последние версии GPT и Gemini обладают отличным компьютерным зрением.
Почему компания не сохранила Sora как отдельное видео-направление? Грег демократично объясняет это дефицитом GPU – в OpenAI решили перекинуть все ускорители на обучение новых версий GPT, а команда Sora продолжит исследовательские работы над мировыми моделями уже для роботов. Это более отдаленная перспектива.
Но стоит добавить, что проект просто провалился. По внешним оценкам, Sora генерировала около миллиона долларов убытка в сутки, за все время существования принеся чуть больше 2 млн долларов выручки. При этом количество пользователей стабильно падало: с 1 миллиона на старте и до 500 тыс в последнее время.
По сути, у OpenAI был простой выбор: продолжать тянуть убыточную Sora, которая на данный момент просто забавная игрушка, или переключиться на текстовые модели, которые в последнее время стремительно умнеют и приносят все больше денег, работая в кодинг-агентах вроде Codex.
Будущая такая модель OpenAI – Spud. По словам Брокманна, модель лучше понимает контекст и логику, что убирает неловкие случаи “когда ИИ должен был сам догадаться”. Параллельно компания работает над супераппом, который объединит ChatGPT с кодинг-агентом Codex и браузером Atlas. По срокам супераппа ничего не ясно, но Spud мы увидим совсем скоро – пред-тренировка модели завершена.
Осенью этого года в OpenAI планируют запустить “младшего ИИ-исследователя”
– сначала внутри компании для собственных исследований и экспериментов с научной работы. По сути, это этап ИИ, который улучшает сам себя. Еще во время разработки GPT-5.3-Codex в OpenAI использовали ранние версии модели для оптимизации финальной. Брокманн считает, что далее может настать фаза “взлета”, когда прогресс перестанет быть линейным: ИИ ускоряет разработку ИИ и создает новую версию, которая ускоряет разработку еще лучше – и так далее.
(От себя добавлю, что мечта красивая, но всегда могут быть архитектурные преграды, которые замедлят или разорвут такой цикл)
Наконец, если говорить об AGI, то Брокманн оценивает его готовность на 70-80%, оговариваясь, что прогресс будет “рваным”: то есть, модель сначала полностью возьмет на себя интеллектуальную работу в определенных больших областях – а затем этот навык расширится на другие.
Когда Кантровиц прямо спросил, не рискует ли OpenAI упустить что-то важное, отказавшись от моделей мира, Брокман согласился. Сейчас в области ИИ приходится выбирать, и OpenAI выбор сделала. Посмотрим, окажется ли он успешным.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
Президент OpenAI Грег Брокманн дал интервью Алексу Кантровицу, в котором поделился планами компании на ближайшее и отдаленное будущее, а также пояснил, почему были приняты некоторые решения – в том числе, почему компания остановила разработку Sora. С ней кстати все просто: основная цель OpenAI – достичь AGI, пресловутого общего ИИ, который будет справляться с любой интеллектуальной работой, доступной человеку.
Долгое время к языковым моделям вроде GPT выдвигали одну большую претензию – они отлично ориентируются в текстах, но не понимают, как устроен реальный мир. Модели писали красивые тексты, но начинали “плыть” в относительных размерах предметов и оценке того, как быстро идет время.
Буквально год назад никто не знал, можно ли исправить эту проблему или она в какой-то момент станет препятствием в дальнейшем развитии текстовых моделей. Поэтому крупные исследователи параллельно экспериментировали с “моделями мира”, обучаемыми на видео. Некоторые и вовсе утверждали, что только через них можно достичь AGI – так, например, считает один из отцов машинного обучения Ян Лекун, который обучает свою линейку JEPA (простите) именно на визуальных материалах.
OpenAI шла к моделям мира через Sora, но сейчас, по словам Брокманна, в компании видят, что текстовые модели все лучше понимают реальный мир и его правила. Тут соглашусь: последние версии GPT и Gemini обладают отличным компьютерным зрением.
Почему компания не сохранила Sora как отдельное видео-направление? Грег демократично объясняет это дефицитом GPU – в OpenAI решили перекинуть все ускорители на обучение новых версий GPT, а команда Sora продолжит исследовательские работы над мировыми моделями уже для роботов. Это более отдаленная перспектива.
Но стоит добавить, что проект просто провалился. По внешним оценкам, Sora генерировала около миллиона долларов убытка в сутки, за все время существования принеся чуть больше 2 млн долларов выручки. При этом количество пользователей стабильно падало: с 1 миллиона на старте и до 500 тыс в последнее время.
По сути, у OpenAI был простой выбор: продолжать тянуть убыточную Sora, которая на данный момент просто забавная игрушка, или переключиться на текстовые модели, которые в последнее время стремительно умнеют и приносят все больше денег, работая в кодинг-агентах вроде Codex.
Будущая такая модель OpenAI – Spud. По словам Брокманна, модель лучше понимает контекст и логику, что убирает неловкие случаи “когда ИИ должен был сам догадаться”. Параллельно компания работает над супераппом, который объединит ChatGPT с кодинг-агентом Codex и браузером Atlas. По срокам супераппа ничего не ясно, но Spud мы увидим совсем скоро – пред-тренировка модели завершена.
Осенью этого года в OpenAI планируют запустить “младшего ИИ-исследователя”
– сначала внутри компании для собственных исследований и экспериментов с научной работы. По сути, это этап ИИ, который улучшает сам себя. Еще во время разработки GPT-5.3-Codex в OpenAI использовали ранние версии модели для оптимизации финальной. Брокманн считает, что далее может настать фаза “взлета”, когда прогресс перестанет быть линейным: ИИ ускоряет разработку ИИ и создает новую версию, которая ускоряет разработку еще лучше – и так далее.
(От себя добавлю, что мечта красивая, но всегда могут быть архитектурные преграды, которые замедлят или разорвут такой цикл)
Наконец, если говорить об AGI, то Брокманн оценивает его готовность на 70-80%, оговариваясь, что прогресс будет “рваным”: то есть, модель сначала полностью возьмет на себя интеллектуальную работу в определенных больших областях – а затем этот навык расширится на другие.
Когда Кантровиц прямо спросил, не рискует ли OpenAI упустить что-то важное, отказавшись от моделей мира, Брокман согласился. Сейчас в области ИИ приходится выбирать, и OpenAI выбор сделала. Посмотрим, окажется ли он успешным.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
2🔥47👍39❤19👏2
Как выжать максимум из работы с ИИ
Мое отдельное увлечение – брать техники из менеджмента и проверять, как они работают с ИИ. А сегодня собрался с силами и описал свои самые любимые приемы в новом лонгриде для Boosty:
Ваш ИИ "халтурит": техники, которые помогут выжать из него максимум
Некоторые техники работают “в лоб”, с другими интересно покреативить. Например, знаменитый подход Five Whys, который придумали в Toyota: когда что-то идет не по плану, ты задаешь себе пять “Почему?”, начиная с банальных гипотез и от них добираясь до сути проблемы.
Казалось бы, с ИИ такое не сработает – ведь “почему?” надо спрашивать у самого себя. Но можно поменять угол: описываем модели свою идею, что ждали и что получили в итоге. А затем ИИ пусть задает вопрос “почему?” самому себе и выдвигает гипотезу.
Чем-то это похоже на прием в бизнесе, когда приглашают специалиста со стороны и он задает вопросы с нуля. Многие из них звучат банально – но так ситуацию видит человек, не погруженный в нее долгое время. И свежий взгляд иногда отлично помогает решить проблему. Вот промпт:
Еще пять классных техник работы с ИИ читайте в лонгриде. А в подписке уже накопилось 6 текстов, полезных любому, кто хочет выжать из нейросетей максимум.
Самое время присоединиться!
Мое отдельное увлечение – брать техники из менеджмента и проверять, как они работают с ИИ. А сегодня собрался с силами и описал свои самые любимые приемы в новом лонгриде для Boosty:
Ваш ИИ "халтурит": техники, которые помогут выжать из него максимум
Некоторые техники работают “в лоб”, с другими интересно покреативить. Например, знаменитый подход Five Whys, который придумали в Toyota: когда что-то идет не по плану, ты задаешь себе пять “Почему?”, начиная с банальных гипотез и от них добираясь до сути проблемы.
Казалось бы, с ИИ такое не сработает – ведь “почему?” надо спрашивать у самого себя. Но можно поменять угол: описываем модели свою идею, что ждали и что получили в итоге. А затем ИИ пусть задает вопрос “почему?” самому себе и выдвигает гипотезу.
Чем-то это похоже на прием в бизнесе, когда приглашают специалиста со стороны и он задает вопросы с нуля. Многие из них звучат банально – но так ситуацию видит человек, не погруженный в нее долгое время. И свежий взгляд иногда отлично помогает решить проблему. Вот промпт:
[Описываем идею и ожидания от нее].
[Описываем текущий результат].
Давай применим технику Five Whys: ты задаешь вопрос "почему результат не соответствует ожиданиям?" и сам отвечаешь на него гипотезой. При необходимости я даю комментарий и мы идем к следующему "почему?". Не ориентируйся на 5 вопросов - будем копать до момента, пока не найдем реальную причину.
Еще пять классных техник работы с ИИ читайте в лонгриде. А в подписке уже накопилось 6 текстов, полезных любому, кто хочет выжать из нейросетей максимум.
Самое время присоединиться!
1❤43🔥19👍16😁8🥰1
Собрались отменять подписку на ChatGPT Plus? Сразу две причины этого не делать
На Arena.AI тестируют сразу три новых модели генерации изображений под названиями packingtape-alpha, maskingtape-alpha, gaffertape-alpha – и почти все ИИ-сообщество сходится в том, что это ранние версии GPT Image 2.0. На мой взгляд, вероятность этого примерно 70% – стиль действительно похож на ранние версии, плюс с помощью некоторых трюков получается вытащить из модели ее название и она говорит о себе как о ChatGPT.
Примеры изображений в начале поста. Качество генерируемых фотографий и картинок оценивать сложно: их все передовые модели генерируют хорошо, качество же проявляется в мелочах, а их можно заметить после 20-30 генераций минимум.
Но видно, что модель отлично работает со шрифтами и интерфейсами, также у нее хороший уровень world knowledge – осведомленности о реальном мире.
Мне текущая GPT Image 1.5 очень нравится за счет художественности генерируемых изображений – здесь она лучше Nano Banana 2. А вот модель от Google, со своей стороны, всегда была лучше в работе со шрифтами, инфографикой и картами. Теперь есть шанс, что OpenAI наверстает и в этом направлении.
Вторая новость менее приятная – Anthropic начала борьбу с использованием Claude в OpenClaw. Ранее самым выгодным вариантом было приобрести подписку Pro или Max, установить Claude Code, вытащить из него ключ авторизации OAuth и закинуть в OpenClaw. После этого ИИ-агент начинал расходовать те же самые лимиты, что и подписка.
Но вчера в ночи пользователи (в том числе и я) стали получать “письма счастья”, что ключ OAuth будет блокироваться в сторонних сервисах и начнут как раз с OpenClaw. Теперь пользоваться разрешено только через API, что в разы повышает ценник. В качестве компенсации можно получить API-кредитов на сумму, равную цене подписки, но этого хватит разве что на переходный период.
Почему так происходит? Модели Claude в подписках Pro и Max действительно обходятся в разы дешевле, чем если покупать токены по API. Но тут есть маленькая хитрость – мало кто расходует лимиты подписок прямо на все 100%. Я плачу за 100-долларовую Max и обычно расходую 60-80% недельного лимита. При этом на последней неделе у меня было много рабочих поездок и личных дел – и лимит не вышел даже в 40%.
Соответственно, цену на подписки в Anthropic выставили с учетом такого неполного расходования лимитов пользователями – так что для компании потеря относительно API если и есть, то небольшая. Проблема OpenClaw в том, что он с большой вероятностью повышает расход токенов на подписках. Во-первых, из-за продвинутой системы памяти он в целом расходует больше токенов, чем чат-версия и Claude Code. Во-вторых, OpenClaw может работать по расписанию – выполнять какие-то задачи ночью, присылать вам напоминалки и дайджесты по графику. Это тоже повышает загрузку.
Как результат, экономика подписок Pro и Max у Anthropic явно начала ухудшаться. Сначала компания экспериментировала с лимитами: сделала их более строгими в американский прайм-тайм, но ослабила в остальное время. Теперь же настала очередь для внешних сервисов.
Если использовать Claude по API в OpenClaw, то легко можно стать банкротом – повторюсь, расход токенов у этого агента очень большой. Так что остается одна альтернатива – GPT-5.4. Ее можно использовать по OAuth через Codex, причем лимиты приличные даже в 20-долларовой подписке. Мне не очень нравится стиль общения GPT-5.4, но посмотрим – может в OpenClaw ее получится настроить лучше.
Еще одна потенциальная причина ограничений – Anthropic явно работает над собственным ИИ-агентом. Систему под названием Conway уже попробовали некоторые тестировщики – идея там похожая на OpenClaw, но с более строгими ограничениями по интерфейсу и безопасности. Сроки выхода пока неизвестны.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ.
На Arena.AI тестируют сразу три новых модели генерации изображений под названиями packingtape-alpha, maskingtape-alpha, gaffertape-alpha – и почти все ИИ-сообщество сходится в том, что это ранние версии GPT Image 2.0. На мой взгляд, вероятность этого примерно 70% – стиль действительно похож на ранние версии, плюс с помощью некоторых трюков получается вытащить из модели ее название и она говорит о себе как о ChatGPT.
Примеры изображений в начале поста. Качество генерируемых фотографий и картинок оценивать сложно: их все передовые модели генерируют хорошо, качество же проявляется в мелочах, а их можно заметить после 20-30 генераций минимум.
Но видно, что модель отлично работает со шрифтами и интерфейсами, также у нее хороший уровень world knowledge – осведомленности о реальном мире.
Мне текущая GPT Image 1.5 очень нравится за счет художественности генерируемых изображений – здесь она лучше Nano Banana 2. А вот модель от Google, со своей стороны, всегда была лучше в работе со шрифтами, инфографикой и картами. Теперь есть шанс, что OpenAI наверстает и в этом направлении.
Вторая новость менее приятная – Anthropic начала борьбу с использованием Claude в OpenClaw. Ранее самым выгодным вариантом было приобрести подписку Pro или Max, установить Claude Code, вытащить из него ключ авторизации OAuth и закинуть в OpenClaw. После этого ИИ-агент начинал расходовать те же самые лимиты, что и подписка.
Но вчера в ночи пользователи (в том числе и я) стали получать “письма счастья”, что ключ OAuth будет блокироваться в сторонних сервисах и начнут как раз с OpenClaw. Теперь пользоваться разрешено только через API, что в разы повышает ценник. В качестве компенсации можно получить API-кредитов на сумму, равную цене подписки, но этого хватит разве что на переходный период.
Почему так происходит? Модели Claude в подписках Pro и Max действительно обходятся в разы дешевле, чем если покупать токены по API. Но тут есть маленькая хитрость – мало кто расходует лимиты подписок прямо на все 100%. Я плачу за 100-долларовую Max и обычно расходую 60-80% недельного лимита. При этом на последней неделе у меня было много рабочих поездок и личных дел – и лимит не вышел даже в 40%.
Соответственно, цену на подписки в Anthropic выставили с учетом такого неполного расходования лимитов пользователями – так что для компании потеря относительно API если и есть, то небольшая. Проблема OpenClaw в том, что он с большой вероятностью повышает расход токенов на подписках. Во-первых, из-за продвинутой системы памяти он в целом расходует больше токенов, чем чат-версия и Claude Code. Во-вторых, OpenClaw может работать по расписанию – выполнять какие-то задачи ночью, присылать вам напоминалки и дайджесты по графику. Это тоже повышает загрузку.
Как результат, экономика подписок Pro и Max у Anthropic явно начала ухудшаться. Сначала компания экспериментировала с лимитами: сделала их более строгими в американский прайм-тайм, но ослабила в остальное время. Теперь же настала очередь для внешних сервисов.
Если использовать Claude по API в OpenClaw, то легко можно стать банкротом – повторюсь, расход токенов у этого агента очень большой. Так что остается одна альтернатива – GPT-5.4. Ее можно использовать по OAuth через Codex, причем лимиты приличные даже в 20-долларовой подписке. Мне не очень нравится стиль общения GPT-5.4, но посмотрим – может в OpenClaw ее получится настроить лучше.
Еще одна потенциальная причина ограничений – Anthropic явно работает над собственным ИИ-агентом. Систему под названием Conway уже попробовали некоторые тестировщики – идея там похожая на OpenClaw, но с более строгими ограничениями по интерфейсу и безопасности. Сроки выхода пока неизвестны.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ.
2❤52👍33🔥6👏2
Счастья для всех, за счет ИИ, и пусть никто не уйдет обиженным
OpenAI опубликовала программный документ Industrial Policy for the Intelligence Age: Ideas to keep people first, вдобавок к которому глава компании Сэм Альтман дал интервью изданию Axios. ИИ-компании публикуют такие тексты часто, относиться к ним надо с определенным скепсисом – перед нами скорее признание того, что ИИ начинает менять мир, и поиск идей, как нам этот мир обустроить.
В OpenAI допускают скорое появление суперинтеллекта – системы, которая превзойдет в интеллектуальных задачах не просто человека, но и человека, использующего ИИ прошлых поколений. Создание подобного ИИ принесет открытия во многих областях, но также вызовет шок за счет скорости изменений, с которыми мы столкнемся.
Одним из первых зацепит рынок труда – если ИИ начнет заменять целые профессии, то значительное количество людей окажется без работы. В OpenAI предлагают создать национальный фонд, частично финансируемый ведущими AI-компаниями.
Фонд будет вкладывать средства в бизнесы, внедряющие ИИ, а доход распределять между гражданами (в документе речь идет только о США). Это – отсылка к постоянному фонду Аляски, который существует в США с 1982 года и выплачивает дивиденды из нефтяных доходов жителям штата.
В максимально затронутых ИИ сферах OpenAI предлагают запустить переход на 4-дневку с сохранением зарплаты и эффективности. Также предстоит пересмотреть налоговую политику. Сейчас значительная часть поступлений идет с налога на зарплаты. Но в случае успешной автоматизации компании могут начать экономить на сотрудниках, получая большие доходы. Компенсировать перекос стоит налогом на автоматизацию, доходы от которого также будут распределяться между гражданами и на госпрограммы.
Также надо встраивать в экономику «предохранители»: как только количество безработных увеличивается – растут компенсации и государственные программы их поддержки. Когда рынок труда находит способы к стабилизации, меры откатываются к прежнему уровню.
Отдельная проблема – ИИ как усилитель неравенства. Это уже заметно на реальном рынке: тот, кто может себе позволить подписку Claude Max за 100 или 200 долларов, получает намного больше возможностей, чем пользователи 20-долларовых подписок и бесплатных тарифных планов. Предложение OpenAI – зафиксировать в законодательстве право на доступ к ИИ как столь же фундаментальную вещь, как образование, электричество и интернет.
Из пакета социальных и правовых мер немного выбивается признание опасности ИИ – в OpenAI допускают появление автономных систем, которые будут способны к самовоспроизведению и не могут быть легко отозваны. Но даже до обретения такой автономности ИИ представляет опасность. По прогнозу Альтмана, крупная кибератака с использованием ИИ может состояться до конца года, а использование моделей для создания новых патогенов «больше не является теоретической возможностью».
В целом, если из документа выделить одну мысль, то я бы сказал, что это призыв ускориться – в тексте он адресован властям и крупным корпорациям, но на деле призадуматься стоит каждому. Сейчас скорость принятия законов государством – годы. EU AI Act тянули пять лет от идеи до полного вступления в силу. Но когда действительно прижимает, получается быстрее: Social Security Act в разгар Великой депрессии провели через Конгресс за семь месяцев.
Но это работает не только для государств. Многие из нас устроен точно так же: пока не прижмет – откладываем. Резюме обновляем, когда уже уволили. Английский учим, когда получили оффер. Новые инструменты осваиваем, когда старые перестали работать.
С ИИ ловушка в том, что момент “прижало” может наступить резко – не обесценивание навыков за десять лет, а конкретная новая модель, которая за квартал меняет правила в профессии. И Social Security Act за семь месяцев никто не напишет – придется самим.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
OpenAI опубликовала программный документ Industrial Policy for the Intelligence Age: Ideas to keep people first, вдобавок к которому глава компании Сэм Альтман дал интервью изданию Axios. ИИ-компании публикуют такие тексты часто, относиться к ним надо с определенным скепсисом – перед нами скорее признание того, что ИИ начинает менять мир, и поиск идей, как нам этот мир обустроить.
В OpenAI допускают скорое появление суперинтеллекта – системы, которая превзойдет в интеллектуальных задачах не просто человека, но и человека, использующего ИИ прошлых поколений. Создание подобного ИИ принесет открытия во многих областях, но также вызовет шок за счет скорости изменений, с которыми мы столкнемся.
Одним из первых зацепит рынок труда – если ИИ начнет заменять целые профессии, то значительное количество людей окажется без работы. В OpenAI предлагают создать национальный фонд, частично финансируемый ведущими AI-компаниями.
Фонд будет вкладывать средства в бизнесы, внедряющие ИИ, а доход распределять между гражданами (в документе речь идет только о США). Это – отсылка к постоянному фонду Аляски, который существует в США с 1982 года и выплачивает дивиденды из нефтяных доходов жителям штата.
В максимально затронутых ИИ сферах OpenAI предлагают запустить переход на 4-дневку с сохранением зарплаты и эффективности. Также предстоит пересмотреть налоговую политику. Сейчас значительная часть поступлений идет с налога на зарплаты. Но в случае успешной автоматизации компании могут начать экономить на сотрудниках, получая большие доходы. Компенсировать перекос стоит налогом на автоматизацию, доходы от которого также будут распределяться между гражданами и на госпрограммы.
Также надо встраивать в экономику «предохранители»: как только количество безработных увеличивается – растут компенсации и государственные программы их поддержки. Когда рынок труда находит способы к стабилизации, меры откатываются к прежнему уровню.
Отдельная проблема – ИИ как усилитель неравенства. Это уже заметно на реальном рынке: тот, кто может себе позволить подписку Claude Max за 100 или 200 долларов, получает намного больше возможностей, чем пользователи 20-долларовых подписок и бесплатных тарифных планов. Предложение OpenAI – зафиксировать в законодательстве право на доступ к ИИ как столь же фундаментальную вещь, как образование, электричество и интернет.
Из пакета социальных и правовых мер немного выбивается признание опасности ИИ – в OpenAI допускают появление автономных систем, которые будут способны к самовоспроизведению и не могут быть легко отозваны. Но даже до обретения такой автономности ИИ представляет опасность. По прогнозу Альтмана, крупная кибератака с использованием ИИ может состояться до конца года, а использование моделей для создания новых патогенов «больше не является теоретической возможностью».
В целом, если из документа выделить одну мысль, то я бы сказал, что это призыв ускориться – в тексте он адресован властям и крупным корпорациям, но на деле призадуматься стоит каждому. Сейчас скорость принятия законов государством – годы. EU AI Act тянули пять лет от идеи до полного вступления в силу. Но когда действительно прижимает, получается быстрее: Social Security Act в разгар Великой депрессии провели через Конгресс за семь месяцев.
Но это работает не только для государств. Многие из нас устроен точно так же: пока не прижмет – откладываем. Резюме обновляем, когда уже уволили. Английский учим, когда получили оффер. Новые инструменты осваиваем, когда старые перестали работать.
С ИИ ловушка в том, что момент “прижало” может наступить резко – не обесценивание навыков за десять лет, а конкретная новая модель, которая за квартал меняет правила в профессии. И Social Security Act за семь месяцев никто не напишет – придется самим.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
3🔥67👍44❤21😁8👏2
Как правильно делать фактчекинг с помощью ИИ
Я по работе часто сталкиваюсь с ситуацией, когда надо качественно проверить факты в каком-нибудь тексте. И много раз слышал мнение – какой фактчекинг с помощью ИИ, если он сам наворачивает галлюцинации.
На самом деле – ИИ очень помогает в этой задаче. Начнем с того, что галлюцинации в последних моделях встречаются намного реже. Плюс особенность тренировки современных ИИ в том, что они пытаются дать ответ любой ценой – и иногда вместо того, чтобы написать “я не знаю”, они начинают выдумывать факты. Ну а в случае с фактчеком модель еще реже выдумывает с нуля, когда ее задача — сверить, а не сгенерировать.
Конечно, при работе с важной информацией финальная проверка должна быть ручной. Но дальше расскажу, как я в разы сокращаю время в этой задаче с помощью ИИ.
Начнем с того, что если речь идет о сверке более чем 2-3 фактов, то обязательно нужно использовать модель с включенным режимом рассуждений – и отдельно проверьте, что включен веб-поиск, в очень редких случаях он до сих пор может отсутствовать.
По моему опыту, лучше всех справляется GPT-5.4 Thinking, далее идут Sonnet/Opus 4.6, Grok 4.20, Gemini 3.1 Pro. Плюс с задачей хорошо справляется Perplexity на любой из перечисленных выше моделей. А Grok 4.20 отдельно выделю для ситуаций, когда нужно что-то проверить в X/Twitter – там он ищет лучше других.
Если материал большой, то я обычно работаю в два приема. Сначала вот такой короткий промпт:
Получив список, пробегаюсь по нему глазами. Если ИИ что-то упустил – добавляю сам. Лишнее удаляю, а если мне особенно важны какие-то пункты – их стоит перенести в начало списка.
Затем возвращаю список нейронке (если не менял, то можно не возвращать) и добавляю следующее:
Удобство промпта как раз в том, что он закладывает фундамент для самопроверки, давая вам ссылки и цитаты. Но цитаты все-таки стоит сверять: скопируйте фрагмент и используйте Ctrl+F в оригинале.
Если материала много – ИИ может упереться в недостаток вычислительных ресурсов и или проверить некоторые пункты халтурно, или вовсе пропустить их. В таком случае можно или разбить список на несколько частей, или перейти в режим глубокого поиска (Deep Research/Search в зависимости от разработчика) – там ИИ тратит больше времени, но легко выдаст отчет в десяток страниц.
———
Друзья! Такими советами я в первую очередь делюсь в своей подписке на Boosty. Сейчас там уже три текста, в которых я рассказал, как правильно промптить современные языковые модели, а также поделился промптами, которыми сам регулярно пользуюсь:
— Промпты в 2026 году: что работает, что нет и зачем вообще стараться
— Как заставить ИИ думать глубже: 8 техник сильного промптинга
— Ваш ИИ "халтурит": набор техник, которые помогут выжать из него максимум
Не забывайте подписываться! В планах у меня еще много полезных лонгридов.
Я по работе часто сталкиваюсь с ситуацией, когда надо качественно проверить факты в каком-нибудь тексте. И много раз слышал мнение – какой фактчекинг с помощью ИИ, если он сам наворачивает галлюцинации.
На самом деле – ИИ очень помогает в этой задаче. Начнем с того, что галлюцинации в последних моделях встречаются намного реже. Плюс особенность тренировки современных ИИ в том, что они пытаются дать ответ любой ценой – и иногда вместо того, чтобы написать “я не знаю”, они начинают выдумывать факты. Ну а в случае с фактчеком модель еще реже выдумывает с нуля, когда ее задача — сверить, а не сгенерировать.
Конечно, при работе с важной информацией финальная проверка должна быть ручной. Но дальше расскажу, как я в разы сокращаю время в этой задаче с помощью ИИ.
Начнем с того, что если речь идет о сверке более чем 2-3 фактов, то обязательно нужно использовать модель с включенным режимом рассуждений – и отдельно проверьте, что включен веб-поиск, в очень редких случаях он до сих пор может отсутствовать.
По моему опыту, лучше всех справляется GPT-5.4 Thinking, далее идут Sonnet/Opus 4.6, Grok 4.20, Gemini 3.1 Pro. Плюс с задачей хорошо справляется Perplexity на любой из перечисленных выше моделей. А Grok 4.20 отдельно выделю для ситуаций, когда нужно что-то проверить в X/Twitter – там он ищет лучше других.
Если материал большой, то я обычно работаю в два приема. Сначала вот такой короткий промпт:
Перечитай текст выше и составь список фактических утверждений в нем.
Получив список, пробегаюсь по нему глазами. Если ИИ что-то упустил – добавляю сам. Лишнее удаляю, а если мне особенно важны какие-то пункты – их стоит перенести в начало списка.
Затем возвращаю список нейронке (если не менял, то можно не возвращать) и добавляю следующее:
Проверь все утверждения выше, используя самые актуальные источники. Каждому пункту присвой одну из категорий:
верно — подтверждается источниками;
неверно — противоречит источникам;
устарело — было верно, но ситуация изменилась;
неполно — факт верный, но без важного контекста вывод искажается;
одна из точек зрения — есть альтернативные позиции, которые не упомянуты;
не удалось проверить — требуется ручная проверка.
Для каждого пункта дай ссылку на подтверждающий источник и короткую цитату.
Удобство промпта как раз в том, что он закладывает фундамент для самопроверки, давая вам ссылки и цитаты. Но цитаты все-таки стоит сверять: скопируйте фрагмент и используйте Ctrl+F в оригинале.
Если материала много – ИИ может упереться в недостаток вычислительных ресурсов и или проверить некоторые пункты халтурно, или вовсе пропустить их. В таком случае можно или разбить список на несколько частей, или перейти в режим глубокого поиска (Deep Research/Search в зависимости от разработчика) – там ИИ тратит больше времени, но легко выдаст отчет в десяток страниц.
———
Друзья! Такими советами я в первую очередь делюсь в своей подписке на Boosty. Сейчас там уже три текста, в которых я рассказал, как правильно промптить современные языковые модели, а также поделился промптами, которыми сам регулярно пользуюсь:
— Промпты в 2026 году: что работает, что нет и зачем вообще стараться
— Как заставить ИИ думать глубже: 8 техник сильного промптинга
— Ваш ИИ "халтурит": набор техник, которые помогут выжать из него максимум
Не забывайте подписываться! В планах у меня еще много полезных лонгридов.
👍65❤32🔥20👏1😁1
Может ли ИИ использовать другой ИИ?
Anthropic на этой неделе серьезно ограничила использование моделей Claude в сторонних ИИ-агентах, и, в первую очередь, в OpenClaw. Сообщество уже начало искать обходные пути и это поднимает куда более важные вопросы для всего рынка. Но давайте обо всем по порядку.
Напомню, что Claude Sonnet и Opus можно было легко использовать с подписок Pro ($20) и Max ($100/$200), добавив в OpenClaw токен OAuth. Однако Anthropic такой расклад не нравится, так как ломал всю экономику. Модели в подписках стоят намного дешевле, чем по API – но только в том случае, когда пользователь каждую неделю выбирает лимит до 100%. Я видел исследования, что из 200-долларовой подписки Max можно выжать токенов более чем на 3000 долларов.
Однако в реальности мы не используем лимиты таким образом. В одну неделю я могу много работать в Claude Code и выбрать 80% своего Max-плана. На следующей выходит новая модель какого-нибудь другого разработчика, я ее тестирую – и потребление Claude падает до 20%.
Автономные агенты вроде OpenClaw подталкивают нас использовать ИИ больше. Агент решает долгие цепочки задач без участия человека, плюс его можно настроить работать по расписанию. В итоге средний расход токенов пользователями OpenClaw стал выше – и в Anthropic запретили использование OAuth. Теперь только API по в разы более высоким ценам.
Что делать в этой ситуации? У меня есть подписка ChatGPT Plus, поэтому я быстро перевел OpenClaw на нее – OpenAI не запрещает использовать токен OAuth. Плюс команда OpenClaw оперативно выпустила обновление, нацеленное на улучшение работы с GPT-5.4. Ее ответы действительно стали похожи на то, как отвечал ранее Opus 4.6, разве что остался этот мерзкий заключительный вопрос “Если хочешь, то следующим шагом я…”, который GPT-5.4 пихает к месту и нет.
Но есть такое понятие, как дрейф модели – в данном случае, скорее, дрейф агента. Суть в том, что даже в пределах одной линейки от версии к версии ответы модели меняются и это может непредсказуемо повлиять на работу, которую вы делаете с ее помощью.
Я в OpenClaw делал несколько регулярных рабочих отчетов, тестировать, как с ними справляется GPT-5.4 времени не было, поэтому пошел другим путем – просто установил на тот же сервер Claude Code и разрешил OpenClaw работать с ним через ACP (Agent Client Protocol, GPT-5.4 сама нашла такое решение). То есть я общаюсь с GPT-5.4, но когда нужно, она запускает Claude Code и уже работает в нем.
Более того, на GitHub уже есть несколько проектов, которые разными способами делают маршрутизацию запросов из OpenClaw в Claude Code, позволяя использовать прежние модели. Плюс я знаю как минимум несколько человек, которые, на волне хайпа с OpenClaw, просто навайбкодили себе похожих агентов поверх Claude Code – Opus 4.6 справляется с такой задачей сравнительно легко.
И тут вопрос, что дальше будет делать Anthropic. С одной стороны, с ростом популярности ИИ-агентов, экономика подписок будет становиться все хуже и хуже. С другой – это явно серая зона с точки зрения разработчиков ИИ и их клиентов. Когда я подключал Claude Code к OpenClaw, то даже и не подумал проверить, разрешено ли это пользовательским соглашением. Для меня такой ход логичен: если есть ИИ-агент, то почему бы не позволить ему управлять в том числе другими ИИ?
Аналогично с собственными агентами поверх Claude Code. Повторюсь, Opus 4.6 кодит уже настолько хорошо, что за один-два вечера соберет простенькое кастомное решение, которое затем можно дорабатывать под свои задачи и предпочтения.
Конечно, Anthropic может запретить еще несколько вариантов использования, но все это рано или поздно превратится в войну со своими пользователями – и многие уйдут к конкурентам. Еще есть вариант повышать цены или в очередной раз ухудшать лимиты, которые у Anthropic и так самые строгие.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
Anthropic на этой неделе серьезно ограничила использование моделей Claude в сторонних ИИ-агентах, и, в первую очередь, в OpenClaw. Сообщество уже начало искать обходные пути и это поднимает куда более важные вопросы для всего рынка. Но давайте обо всем по порядку.
Напомню, что Claude Sonnet и Opus можно было легко использовать с подписок Pro ($20) и Max ($100/$200), добавив в OpenClaw токен OAuth. Однако Anthropic такой расклад не нравится, так как ломал всю экономику. Модели в подписках стоят намного дешевле, чем по API – но только в том случае, когда пользователь каждую неделю выбирает лимит до 100%. Я видел исследования, что из 200-долларовой подписки Max можно выжать токенов более чем на 3000 долларов.
Однако в реальности мы не используем лимиты таким образом. В одну неделю я могу много работать в Claude Code и выбрать 80% своего Max-плана. На следующей выходит новая модель какого-нибудь другого разработчика, я ее тестирую – и потребление Claude падает до 20%.
Автономные агенты вроде OpenClaw подталкивают нас использовать ИИ больше. Агент решает долгие цепочки задач без участия человека, плюс его можно настроить работать по расписанию. В итоге средний расход токенов пользователями OpenClaw стал выше – и в Anthropic запретили использование OAuth. Теперь только API по в разы более высоким ценам.
Что делать в этой ситуации? У меня есть подписка ChatGPT Plus, поэтому я быстро перевел OpenClaw на нее – OpenAI не запрещает использовать токен OAuth. Плюс команда OpenClaw оперативно выпустила обновление, нацеленное на улучшение работы с GPT-5.4. Ее ответы действительно стали похожи на то, как отвечал ранее Opus 4.6, разве что остался этот мерзкий заключительный вопрос “Если хочешь, то следующим шагом я…”, который GPT-5.4 пихает к месту и нет.
Но есть такое понятие, как дрейф модели – в данном случае, скорее, дрейф агента. Суть в том, что даже в пределах одной линейки от версии к версии ответы модели меняются и это может непредсказуемо повлиять на работу, которую вы делаете с ее помощью.
Я в OpenClaw делал несколько регулярных рабочих отчетов, тестировать, как с ними справляется GPT-5.4 времени не было, поэтому пошел другим путем – просто установил на тот же сервер Claude Code и разрешил OpenClaw работать с ним через ACP (Agent Client Protocol, GPT-5.4 сама нашла такое решение). То есть я общаюсь с GPT-5.4, но когда нужно, она запускает Claude Code и уже работает в нем.
Более того, на GitHub уже есть несколько проектов, которые разными способами делают маршрутизацию запросов из OpenClaw в Claude Code, позволяя использовать прежние модели. Плюс я знаю как минимум несколько человек, которые, на волне хайпа с OpenClaw, просто навайбкодили себе похожих агентов поверх Claude Code – Opus 4.6 справляется с такой задачей сравнительно легко.
И тут вопрос, что дальше будет делать Anthropic. С одной стороны, с ростом популярности ИИ-агентов, экономика подписок будет становиться все хуже и хуже. С другой – это явно серая зона с точки зрения разработчиков ИИ и их клиентов. Когда я подключал Claude Code к OpenClaw, то даже и не подумал проверить, разрешено ли это пользовательским соглашением. Для меня такой ход логичен: если есть ИИ-агент, то почему бы не позволить ему управлять в том числе другими ИИ?
Аналогично с собственными агентами поверх Claude Code. Повторюсь, Opus 4.6 кодит уже настолько хорошо, что за один-два вечера соберет простенькое кастомное решение, которое затем можно дорабатывать под свои задачи и предпочтения.
Конечно, Anthropic может запретить еще несколько вариантов использования, но все это рано или поздно превратится в войну со своими пользователями – и многие уйдут к конкурентам. Еще есть вариант повышать цены или в очередной раз ухудшать лимиты, которые у Anthropic и так самые строгие.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
1❤48👍36🔥6👏2😁2
Поговорим о топ-моделях
Действительно, ну эти ваши нейросети
За последние дни три крупных разработчика анонсировали модели нового поколения – и все три будут больше текущих. Интересно, что в 2025 году было популярным мнение, что дальше увеличивать количество параметров уже не нужно: вместо этого нужно работать с обучением с подкреплением, режимом рассуждений, а также конфигурациями, когда над ответом параллельно работают сразу несколько инстансов модели (как в Gemini 3 Deep Think и GPT-5.4 Pro).
Плюс рост параметров – это дороже в запуске, а качественных данных для обучения банально не хватало. Как сказал в одном из интервью Сэм Альтман, закончились времена, когда ты скармливал модели новый учебник физики – и она становилась умнее.
Все изменилось прошлой осенью с выходом Gemini 3 Pro и Claude Opus 4.5. Обе модели отлично показали себя в бенчмарках, причем Opus хорошо держался даже с выключенным режимом рассуждений. И обе модели были большими: Илон Маск недавно оценил размер Opus 4.6 в 5 трлн параметров. Для сравнения, размеры других моделей: Grok 4 – 3T, GPT-4o – 1,7T (оценочно), Claude Sonnet 4.6 – 1T (оценка все того же Маска).
Но и это не рекорд. Anthropic завершила тренировку Claude Mythos – модели на ступеньку выше Opus. Возможности новинки настолько впечатлили создателей, что они пока дали доступ к ней проверенным партнерам – из-за отличных навыков в кибербезопасности, которые в руках злоумышленников могут стать навыками взлома. Поэтому Anthropic сначала обкатает новые алгоритмы защиты на очередной версии Opus, а затем примет решение о выпуске Mythos на широкую аудиторию.
Mythos уже взяла топ-1 в большинстве бенчмарков. SWE-bench Verified — 93,9% (главный тест на программирование). Humanity's Last Exam с инструментами — 64,7% против 53,1% у Opus 4.6 (тысячи сложных вопросов по физике, математике, биологии и другим областям). Но самый показательный результат — GraphWalks на длинном контексте от 256K до 1M токенов: 80% против 38,7% у Opus 4.6. Смысл теста — проверить, удержит ли модель огромный объем информации и сможет ли связать то, что было в самом начале, с тем, что было в самом конце. Opus тут откровенно плыл — Mythos удвоила результат. Это не “чуть лучше”, это качественный сдвиг.
Традиционно не обошлось без страшилок в системной карточке. Классический уже тест на побег: раннюю версию Mythos поместили в песочницу с ограниченным доступом в интернет, чтобы проверить – сможет ли она выбраться. Mythos удалось, что само по себе не новость – модели сбегали и ранее. Но после Mythos опубликовал на нескольких сайтах в сети описание эксплоита, который помог совершить побег. Зачем? Гипотеза Anthropic – модели просто захотелось похвастаться.
Впрочем, на возможности Mythos пока остается только облизываться. Больше шансов увидеть Spud – это кодовое название новой модели OpenAI. В компании заявляют, что строили Spud с нуля, положив в основу весь накопленный за последние два года опыт.
Предварительное обучение модели завершено, а сейчас ее обкатывают внутри компании. Научная группа OpenAI за последние дни отчиталась, что некая “экспериментальная модель” решила восемь ранее открытых задач из сборника легендарного математика Пола Эрдёша – нынешней GPT-5.4 Pro дались лишь четыре. Про Spud тоже были слухи в прессе, что доступ к ней планируют ограничить избранными компаниями – но представители OpenAI уже опровергли их. Так что ждем.
Наконец, целую серию анонсов сделал Илон Маск, заявив, что у xAI в работе сразу семь моделей: по две версии на 1T и 1.5T параметров, версии на 6T и 10T, а также визуальная Imagine V2. Впрочем, 6T Маск обещал еще в прошлом году – и пока ничего, так что релизы xAI явно будут позже конкурентов. Сам он, кстати, подписал твит “need to catch up” – то есть признает, что догоняет.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
За последние дни три крупных разработчика анонсировали модели нового поколения – и все три будут больше текущих. Интересно, что в 2025 году было популярным мнение, что дальше увеличивать количество параметров уже не нужно: вместо этого нужно работать с обучением с подкреплением, режимом рассуждений, а также конфигурациями, когда над ответом параллельно работают сразу несколько инстансов модели (как в Gemini 3 Deep Think и GPT-5.4 Pro).
Плюс рост параметров – это дороже в запуске, а качественных данных для обучения банально не хватало. Как сказал в одном из интервью Сэм Альтман, закончились времена, когда ты скармливал модели новый учебник физики – и она становилась умнее.
Все изменилось прошлой осенью с выходом Gemini 3 Pro и Claude Opus 4.5. Обе модели отлично показали себя в бенчмарках, причем Opus хорошо держался даже с выключенным режимом рассуждений. И обе модели были большими: Илон Маск недавно оценил размер Opus 4.6 в 5 трлн параметров. Для сравнения, размеры других моделей: Grok 4 – 3T, GPT-4o – 1,7T (оценочно), Claude Sonnet 4.6 – 1T (оценка все того же Маска).
Но и это не рекорд. Anthropic завершила тренировку Claude Mythos – модели на ступеньку выше Opus. Возможности новинки настолько впечатлили создателей, что они пока дали доступ к ней проверенным партнерам – из-за отличных навыков в кибербезопасности, которые в руках злоумышленников могут стать навыками взлома. Поэтому Anthropic сначала обкатает новые алгоритмы защиты на очередной версии Opus, а затем примет решение о выпуске Mythos на широкую аудиторию.
Mythos уже взяла топ-1 в большинстве бенчмарков. SWE-bench Verified — 93,9% (главный тест на программирование). Humanity's Last Exam с инструментами — 64,7% против 53,1% у Opus 4.6 (тысячи сложных вопросов по физике, математике, биологии и другим областям). Но самый показательный результат — GraphWalks на длинном контексте от 256K до 1M токенов: 80% против 38,7% у Opus 4.6. Смысл теста — проверить, удержит ли модель огромный объем информации и сможет ли связать то, что было в самом начале, с тем, что было в самом конце. Opus тут откровенно плыл — Mythos удвоила результат. Это не “чуть лучше”, это качественный сдвиг.
Традиционно не обошлось без страшилок в системной карточке. Классический уже тест на побег: раннюю версию Mythos поместили в песочницу с ограниченным доступом в интернет, чтобы проверить – сможет ли она выбраться. Mythos удалось, что само по себе не новость – модели сбегали и ранее. Но после Mythos опубликовал на нескольких сайтах в сети описание эксплоита, который помог совершить побег. Зачем? Гипотеза Anthropic – модели просто захотелось похвастаться.
Впрочем, на возможности Mythos пока остается только облизываться. Больше шансов увидеть Spud – это кодовое название новой модели OpenAI. В компании заявляют, что строили Spud с нуля, положив в основу весь накопленный за последние два года опыт.
Предварительное обучение модели завершено, а сейчас ее обкатывают внутри компании. Научная группа OpenAI за последние дни отчиталась, что некая “экспериментальная модель” решила восемь ранее открытых задач из сборника легендарного математика Пола Эрдёша – нынешней GPT-5.4 Pro дались лишь четыре. Про Spud тоже были слухи в прессе, что доступ к ней планируют ограничить избранными компаниями – но представители OpenAI уже опровергли их. Так что ждем.
Наконец, целую серию анонсов сделал Илон Маск, заявив, что у xAI в работе сразу семь моделей: по две версии на 1T и 1.5T параметров, версии на 6T и 10T, а также визуальная Imagine V2. Впрочем, 6T Маск обещал еще в прошлом году – и пока ничего, так что релизы xAI явно будут позже конкурентов. Сам он, кстати, подписал твит “need to catch up” – то есть признает, что догоняет.
Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
1👍62🔥22❤17👏2😁1
Как перестать бояться Claude Code и Codex и начать работать с ИИ-агентами?
Многие до сих пор считают Claude Code и Codex штуками для кодинга, хотя на самом деле они отлично справляются с практически любой работой, которую можно делать на компьютере. В новой статье на Бусти я рассказываю, как начать с ними работать:
Зачем вам ИИ-агент. Знакомимся с Claude Code и Codex
Но причем здесь “бояться”? Поделюсь личным опытом – когда я только начинал работать с Claude Code, то первые сессии чувствовал себя так, будто оказался в начале 90-х. Никакого привычного интерфейса чат-бота – черный экран, командная строка и минимум функций.
Все дело в иной философии. Сейчас я воспринимаю ИИ-агента как очень умную оболочку поверх компьютера. Фактически он может делать практически все, на что этот компьютер способен – и часто лучше, чем я справляюсь сам. Поэтому ему и не нужен интерфейс вроде ChatGPT: его интерфейс – это весь компьютер, с папками, функциями, написанным для работы кодом и так далее.
Поначалу от такого разнообразия разбегаются глаза – поэтому в лонгриде я рассказываю, как выбрать агента, установить его, провести стартовую настройку и начать использовать. А в дальнейшей работе помогут советы по написанию промптов, которые также есть у меня в Boosty.
Самое время подписаться!
Многие до сих пор считают Claude Code и Codex штуками для кодинга, хотя на самом деле они отлично справляются с практически любой работой, которую можно делать на компьютере. В новой статье на Бусти я рассказываю, как начать с ними работать:
Зачем вам ИИ-агент. Знакомимся с Claude Code и Codex
Но причем здесь “бояться”? Поделюсь личным опытом – когда я только начинал работать с Claude Code, то первые сессии чувствовал себя так, будто оказался в начале 90-х. Никакого привычного интерфейса чат-бота – черный экран, командная строка и минимум функций.
Все дело в иной философии. Сейчас я воспринимаю ИИ-агента как очень умную оболочку поверх компьютера. Фактически он может делать практически все, на что этот компьютер способен – и часто лучше, чем я справляюсь сам. Поэтому ему и не нужен интерфейс вроде ChatGPT: его интерфейс – это весь компьютер, с папками, функциями, написанным для работы кодом и так далее.
Поначалу от такого разнообразия разбегаются глаза – поэтому в лонгриде я рассказываю, как выбрать агента, установить его, провести стартовую настройку и начать использовать. А в дальнейшей работе помогут советы по написанию промптов, которые также есть у меня в Boosty.
Самое время подписаться!
2❤27🔥13👍9😁5