сбежавшая нейросеть

На какие бенчмарки стоит смотреть, выбирая ИИ?

Пятница, а значит на платном канале в Boosty вышел очередной лонгрид – в нем я разбираю бенчмарки. Когда выходит новая модель, то первое, на что мы бросаемся смотреть – это на циферки в таблице. Где главный прорыв, где топчется на месте, а где – откат назад.

Но меряться процентами – это одно, а совсем другое – использовать результаты бенчмарков для выбора ИИ. Некоторые уже не актуальны, другие заточены под сложные научные задачи, в то время как пользователю нужна помощь в написании заголовков для блога и разборе домашки ребенка.

В тексте я подобрал именно бенчмарки, на которые стоит смотреть всем нам – офисным работягам, юристам, продакт менеджерам, редакторам, любителям поболтать с ИИ, навайбкодить проект за пару вечеров, выполнить сложный поиск в интернете и нагрузить нетривиальную задачу на OpenClaw.

Плюс в конце бонусом небольшой рассказ про ARC-AGI и FrontierMath – за этими двумя бенчмарками я советую следить в плане “общего прогресса” ИИ и достижения пресловутого AGI.

В общем, подписывайтесь на Boosty: новые лонгриды выходят раз в неделю, а глобальный план – собрать из них небольшой курс по ИИ, который будет полезен и новичкам, и опытным пользователям.

🔥26😁8👍6❤5👏1

10.8K views17:28

сбежавшая нейросеть

Без ИИ код не пишу!

10 марта 2025 года Дарио Амодеи дал знаменитый прогноз – “через 3-6 месяцев 90% кода будет писать ИИ, а через год – весь код вообще”. Очевидно, что это была маркетинговая фраза, от которой сам Амодеи затем изящно отскочил – осенью прошлого года он заявил, что 70-90% кода в Anthropic и ряде дружественных компаний действительно пишутся ИИ. Значит, он прав, а если кто-то не кодит с помощью ИИ – это это его проблемы.

Но что же реально происходит с ИИ-кодом за пределами Anthropic? Я копнул материалы и столкнулся с классической проблемой исследований на тему ИИ – они устаревают быстрее, чем успевают выйти. Исследование нужно спроектировать, набрать основную и контрольную группы, изучать их какое-то время, затем собрать и обработать материалы, пройти независимое рецензирование… в общем, теперь вы понимаете, когда в серьезной бумаге от какого-нибудь Оксфорда сравнивают GPT-4o и Gemini 1.5.

Но одна интересная находка все-таки есть. В феврале-июне 2025 года METR набрали 16 опытных open source разработчиков. Разработчики предлагали задачи, а исследователи случайным образом решали – будет ли задача решаться с помощью ИИ или руками. Основным инструментом был Cursor с Claude 3.5/3.7. За участие платили $150 в час, что примерно на уровне зарплаты опытного инженера.

В начале эксперимента разработчики прогнозировали, что ИИ ускорит их на 24%. По итогам эксперимента они оценили ускорение от ИИ на 20%. Однако по замеру METR, скорость выполнения задачи с помощью ИИ…упала на 19%.

В августе 2025 года METR отобрали уже 57 разработчиков: 10 участников прошлого исследования и 47 новичков из проектов разной сложности. Из-за ограниченности бюджета ставку снизили до $50 в час – это заметно хуже реальных зарплат по рынку и, по словам организаторов, могло повлиять на результаты.

Вернее, на их отсутствие – второй этап просто провалился. Схема была прежней: разработчики предлагали задачи, система выбирала “ИИ/вручную”, а затем… разработчики массово отказывались от задач, которые надо делать без помощи ИИ. Вот одна яркая цитата:

Я избегаю задач, где ИИ закончит за 2 часа, а мне придется потратить 20.

Когда в METR обработали те данные, которые удалось собрать, стало ясно, что для участников первого эксперимента ускорение составило примерно 18%, а для новичков – 4%. Статистическая значимость на этих цифрах вышла в окно, но главный итог в другом – буквально за полгода опытные разработчики так привыкли использовать ИИ для своих задач, что уже просто не хотят кодить без его помощи. Вот еще цитата:

У меня голова взорвется от работы по-старому — это как пересечь город пешком, когда привык ездить на Uber.

В METR поделились и другим интересным наблюдением: оценивать эффективность стало сложнее еще потому, что многие разработчики, запустив агента кодить, в параллели брались за другую задачу. Это становится новой нормой для ИИ-кодинга – я писал про Джеффа Эммануэля, который оплачивает сразу 22 подписки Claude Max. Он кодит с помощью целой своры ИИ-агентов, делая 2000-3000 коммитов на GitHub в неделю. Подход Джеффа скорее исключение из правил, но запускать 2-3 агентов для работы над разными задачами способен, пожалуй, каждый.

В итоге в METR признали, что уверены в ускорении кодинга, но не могут доказать это на цифрах. Сейчас организация создает очередное исследование, но вряд ли и оно будет успешным – развитие ИИ-инструментов настолько резкое, что его, возможно, нереально измерить в цифрах.

А самое интересное, что кодинг тянет за собой всю остальную работу. У Claude Code, Codex и OpenClaw есть особенность, которую пока осознали не все – обладая продвинутыми навыками кода, эти агенты уже сейчас могут собрать вам инструмент под почти любую задачу. Так что Амодеи, возможно, и промахнулся с цифрами — но направление угадал точно.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.

🔥52👍37❤29👏2😁1

12K viewsedited 11:26

сбежавшая нейросеть

Спасти Роузи

Видели новость, которая пришла к нам будто бы со страниц доброго фантастического романа? В Австралии ML-специалист Пол Конингем с помощью ИИ и ряда лабораторных инструментов создал персонализированную мРНК-вакцину от рака для своей собаки Роузи. И добился пусть пока не исцеления, но заметного прогресса.

Как это вообще возможно? Ведь даже человеческие персонализированные мРНК-вакцины еще не выпущены в широкий оборот – самые перспективные из них проходят третью стадию клинических испытаний.

Любой рак – это всегда ошибка иммунной системы. Раковые клетки появляются в организме каждый день, но обычно с ними расправляется иммунитет. А вот если не справляется – настает время для страшного диагноза.

А еще рак – это мутация, а она у каждого индивидуальна. Не имея возможности попасть в цель, врачи десятилетиями били по площадям – удаляли пораженные органы, заливали организм токсичной химией и облучали радиацией.

Почему нельзя было бить точнее? Создание лекарств – это работа с массивами данных, обычно медленная и дорогая. С развитием машинного обучения все стало меняться: если еще десять лет назад определение структуры одного белка занимало до года и стоило сотни тысяч долларов, то в 2020 году легендарная модель DeepMind AlphaFold 2 с помощью машинного обучения вычислила структуры почти всех известных белков. Все они в открытом доступе.

ИИ используются и на других этапах создания лекарств, для перечисления которых не хватит поста. Но самое важное – теперь можно создавать не только “усредненные” препараты, но и “подгонять” их под пациента.

В случае с персонализированными мРНК-вакцинами врачи сравнивают ДНК здоровых тканей с ДНК опухоли и ищут в последней мутировавшие белки – неоантигены. Далее алгоритмы машинного обучения отбирают те, которые с наибольшей вероятностью вызывают иммунный ответ и создают на их базе вакцину. Если все сработало как надо (напомню, сейчас идут только клинические испытания), то иммунитет пациента начинает “видеть”, раковую опухоль – и принимает участие в ее уничтожении (обычно вакцины комбинируют с другими препаратами).

Таким же путем пошел и Пол Конингем с Роузи. Когда традиционное лечение не помогло, он обратился к ChatGPT с запросом, какие есть перспективные терапии рака – ИИ разобрал основные подходы, помог выбрать лучший и наметил дальнейшие шаги.

В первую очередь Пол секвенировал ДНК здоровых клеток и опухоли Роузи, отдав за это 3000 долларов. Для анализа ДНК Пол использовал все ту же AlphaFold – она сейчас доступна бесплатно для научных целей. Модель Google помогла ему подобрать индивидуальные “мишени” для вакцины.

Создать вакцину помог Палл Тордарсон, директор Института РНК при UNSW. А ввести препарат вызвалась Рейчел Аллавена из Квинслендского университета – у нее было разрешение на подобные эксперименты. Битва с бюрократией заняла 3 месяца, в ходе которых Конингем составлял 100-страничное этическое заявление.

Пока терапии поддалась лишь одна опухоль, которая уменьшилась на 75% – вторая не ответила. Но Роузи стало лучше, а Конингем выиграл время для дальнейших экспериментов. Держим за них кулаки.

Не менее важно в этой истории, что прямо на наших глазах, возможно, зарождается Citizen Science 2.0. Ранее гражданской наукой называли волонтеров без специального образования, которые являются руками, глазами и ушами ученых – наблюдают за миграцией птиц, ищут аномалии на картах звездного неба и т. д.

Но случай Роузи совершенно иной – не будучи биологом, Конингем направлял ИИ и добился нужных результатов. При этом Конингем – не "обычный человек с чатботом". За его плечами 17 лет в машинном обучении. ИИ не заменил экспертизу – он позволил перенести ее из одной области в другую. И какие еще случаи переноса мы увидим – представить пока сложно.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.

🔥160❤76👍30👏6😁1

11.4K viewsedited 17:02

сбежавшая нейросеть

Сложно выбрать ИИ?..

Это вы еще не знаете, как мне сложно вам что-то советовать. За последнюю неделю сразу несколько человек написали мне с вопросом – а что там с GenSpark? Ты хвалил его буквально три месяца назад, больше не пользуешься?

Я им действительно больше не пользуюсь, но все еще считаю одним из лучших агрегаторов нейросетей. Проблема в другом: ИИ развивается настолько быстро, что рынок постоянно переворачивается с ног на голову. Я в последнее время увлекся агентами вроде OpenClaw и Claude Code – и здесь польза от GenSpark нулевая. Но давайте попробую рассказать, где и какой сервис может быть полезен сейчас.

OpenClaw и его клоны (NanoBot, NanoClaw и др.)

Здесь модель должна хорошо кодить, в том числе в агентских средах, следовать инструкциям и быть устойчивой ко взломам. Лучший вариант – Claude Opus 4.6, подключенный по Oauth через Claude Code. Но OpenClaw мощно расходует токены, а лимиты Anthropic на 20-долларовой подписке Pro могут сгореть очень быстро. Если вы новичок и не готовы платить 125 долларов за Max, то можно попробовать начать с Claude Sonnet 4.6, а когда поймете принцип работы, то попросить агента создать себе роутер, где для сложных задач вызывается Opus.

Также подойдет GPT-5.4, подключенная по Oauth через Codex. Здесь 20-долларовой подписки ChatGPT Plus хватит для обычной работы, причем лимиты Codex не расходуют лимиты чат-бота в обычном интерфейсе. У меня OpenClaw на GPT-5.4 работал не хуже чем на Opus, а основная претензия – стиль ответов. Такое впечатление, что модель Anthropic взрослее на 10 лет.

Кодинг-агенты

Claude Code – золотой стандарт. У него больше всего функций, есть куча скиллов, MCP, написаны гайды, инструкции и так далее. И вновь проблема в том, что лимиты на подписке Pro улетают быстро. Можно исправить используя Opus 4.6 для планирования проекта и проверки результата, а Sonnet 4.6 – для написания кода.

Codex на GPT-5.4 – 20-долларовой подписки хватит на несколько проектов в неделю. Кодит не хуже Опуса, но проигрывает по визуалу – интерфейсам, диаграммам и проч. По функционалу не сильно уступает, а где-то и вовсе впереди – например, есть компьютерное зрение.

Чат-боты

Коротко и емко:

ChatGPT в режиме Thinking – лучший поиск, мало галлюцинаций, хорошее компьютерное зрение. Но отвратно пишет на русском и долго отвечает.

Claude – трудяга. Соберет отличную презентацию, найдет полезные инсайты в цифрах, накидает идей. Хорошо пишет на русском. Но строгие лимиты – придется учиться жонглировать между Opus и Sonnet в обычном и рассуждающем режимах.

Gemini 3 Thinking и 3.1 Pro – также хорошо пишет на русском, плюс отличное компьютерное зрение (может разобрать по деталям даже 20-минутное видео), классный рассказчик, в целом очень приятная. Но есть манера сильно преувеличивать некоторые вещи – такие изощренные галлюцинации. Ну и достучаться до Gemini из России сложнее, чем до других ИИ.

Grok 4.20 – пользуюсь только поиском по X. Здесь он лучший.

Агрегаторы

GenSpark – лучший вариант попробовать максимум моделей в одной подписке. Есть GPT, Gemini, Claude и Grok, множество рисовалок и моделей генерации видео. Но когда выберете понравившуюся модель, то лучше уходить в отдельную подписку – та же GPT-5.4 в ChatGPT ищет лучше, чем в GenSpark.

Perplexity – набор моделей неплохой, но все-таки скромнее: например, в GenSpark есть Claude Opus, а здесь только Sonnet. Зато сервис отлично подходит для поиска – почти как ChatGPT.

Рисовалки

Я чаще пользуюсь GPT Image 1.5 – она рисует “красиво”. Nano Banana 2 реалистичнее и отлично справляется с инфографикой – но картинки получаются скучнее.

Китайские ИИ

Здесь мало могу помочь – моделей много, а времени не хватает. Но из-за бесплатности и свободного доступа китайские модели можно попробовать самому. Держите список, которые заслуживают внимания: DeepSeek V3.2, Kimi K2.5, GLM-5, Qwen3.5. У китайцев бесплатен и рассуждающий режим – не забывайте включать на сложных задачах.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.

4❤72👍58🔥10😁4

9.15K views11:15

сбежавшая нейросеть

Будет непросто, но весело (надеюсь)

Если вы в последнее время живете в режиме “что вообще вокруг происходит?”, то подкину топлива, пересказав главное из свежего выступления Сэма Альтмана на BlackRock Infrastructure Summit.

Вообще, выступления людей типа Альтмана стоит слушать осторожно – они активно продают тему ИИ инвесторам, поэтому иногда “галлюцинируют” красоты ради. Но они же, тем не менее, находятся на переднем краю ИИ-прогресса и видят то, что мы увидим в будущем. Постараюсь отделить действительно интересные штуки от “галлюцинаций”.

Порог экономической полезности пройден

Альтман уверен, что несколько месяцев назад ИИ окончательно превратился из необычного помощника в полноценный рабочий инструмент. Больше всего это заметно в кодинге, но происходит и во многих других интеллектуальных областях, вплоть до науки.

Альтман говорит такое не впервые, но в этот раз его слова подтверждают цифры: ожидаемая годовая выручка двух главных на данный момент конкурентов рынка, Anthropic и OpenAI, растет быстрее прогнозов. Обе компании сильно зависят от инвестиций, но тренд виден: все больше бизнес- и частных клиентов воспринимают ИИ как полезный инструмент и готовы платить за него деньги.

Интеллект как коммунальная услуга

Альтман видит будущее, в котором ежемесячный платеж за ИИ так же естественен, как платеж за воду или электричество – хотя я бы скорее сравнивал с оплатой интернета или мобильника. С этой целью компания вкладывается в дата-центры – ИИ должен быть доступным.

И если сейчас это чат-боты и первые, еще неуклюжие, агенты, то в будущем в OpenAI видят ИИ как персонального партнера. Что-то вроде “старшего сотрудника”, которому мы доверяем разные задачи: от рабочих тасков до ведения личных дел. Он будет работать непрерывно, и чем больше накопит контекста о пользователе – тем эффективнее станет.

Стартапы без сотрудников

Альтман приводит пример Индии, где бизнес часто предпочитает не нанимать новых сотрудников, а вкладываться в ИИ-ресурсы. Я уверен, что подобное происходит и в других странах, в том числе, и у нас. Просто это пока сложно посчитать. Если наем и увольнение сотрудников – это понятные цифры, то расходы на ИИ поддаются подсчету сложнее. Тем более, что один из текущих сотрудников может купить ИИ-подписку и использовать ее для повышения своей эффективности.

Что делать в таких условиях? Альтман говорит о буме стартапов без сотрудников и я согласен с ним. Малый бизнес всегда был локомотивом экономики и одним из главных работодателей – и на самом деле, как только он научится пользоваться ИИ, то сможет действовать еще эффективнее, часто обходя неповоротливых гигантов.

Следующие несколько лет будут “болезненными” и ни у кого нет точного ответа – что делать

Альтман верит, что ИИ в конечном счете принесет человечеству блага, однако путь к ним может быть “болезненным”. И дело даже не в локальных страшилках вроде “ИИ заберет вашу работу”, а в том, что придется очень быстро перестраивать общество, искать новые механизмы и ценности.

Традиционный капитализм построен на балансе труда и капитала: работник нужен, потому что без него ничего не произведешь. Но если GPU (и роботы) будут справляться с работой лучше человека — этот баланс ломается. Как перестроить общество под управление изобилием вместо дефицита — совершенно новая задача, и, по словам Альтмана, ответа на нее пока ни у кого нет.

Еще один интересный пример – экономические показатели. Если в результате бума продуктивности товары и услуги подешевеют, то ВВП начнет не расти, а падать – и это не будет чем-то плохим, просто человечеству придется переосмыслить способы измерения качества жизни.

Альтман считает, что дебаты о том, как устроить мир, в какой-то момент будут очень интенсивными и некомфортными. По его словам, ни у кого сейчас нет твердого решения – но, как мне кажется, именно это открывает возможности для самых разных людей.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.

1👍79❤46🔥22😁7

10.8K views17:51

сбежавшая нейросеть

Как говорить с ИИ, чтобы он вас понял

Конец недели – время для полезного лонгрида в подписке на Boosty. В этот раз поговорим о промптах. Я в последнее время часто читаю мнение, что промпт-инжиниринг в классическом виде умирает. Мы все реже будем “программировать” модели с помощью текстов и все больше – работать с ИИ-агентами, которые сами разберут задачу на кусочки, запросят у пользователя нужный контекст, все сделают, а затем еще и перепроверят себя.

Про агентов верно, но они не убирают самый важный навык – навык общения с ИИ. Когда ты правильно пишешь промпты, то этот навык прививается сам собой – я, например, замечаю, как даже в обычном диалоге использую те или иные приемы, которыми ранее пользовался в промптинге. Да и “классические” промпты пока рано сдавать в утиль – например, тому же агенту проще поставить задачу именно таким образом.

Я долго изучал промптинг как на личном опыте, так и чужих примерах и исследованиях. Узнал, какие подходы существуют, какие приемы работают, а какие вредны. А теперь собрал свои знания в одном плотном тексте.

Читать на Boosty

(Друзья, Boosty поддерживает оплату с карт российских и зарубежных банков. Если у вас трудности с оплатой, то:

— отключите VPN
— убедитесь, что оплачиваете через сайт, а не мобильное приложение)

1👍29😁25❤11🔥7👏3

10.7K viewsedited 18:58

сбежавшая нейросеть

Переделка интерфейсов

Постепенно появляются намеки на то, как изменится наша работа с ИИ в ближайшие месяцы и годы.

Начнем с управления агентами через мессенджеры. Уже можно точно сказать, что пресловутый OpenClaw – это не хайп на несколько недель, а популярный рабочий инструмент, пусть и сырой. На базе OpenClaw люди разворачивают персональных и бизнес-ассистентов, автоматизируют процессы.

В Китае OpenClaw продвигается ведущими ИИ-компаниями: они бесплатно устанавливают агента и обучают им пользоваться, дарят API-кредиты и прочие бонусы. Тут простая бизнес-логика: агенты расходуют больше токенов, чем чат-боты, поэтому “подсадив” пользователей сейчас, можно круто заработать на них в будущем.

Количество вариаций на тему также растет. NVIDIA выпустила NemoClaw – по-сути, расширение OpenClaw, которое повышает его безопасность до уровня, достаточного для бизнес-клиентов. Штука интересная: встроено множество дополнительных мер безопасности, плюс чувствительные задачи можно передать локальной модели Nemotron, чтобы данные не утекали наружу. Интерec NVIDIA простой: для запуска потребуются RTX-видеокарты и даже полупрофессиональные ИИ-компьютеры DGX Station.

Anthropic на днях запустили Channels для Claude Code – теперь запущенной сессией можно управлять удаленно, с помощью Telegram и Discord. Фактически это OpenClaw на минималках: нет глубокой памяти и разнообразного функционала, но зато простая установка и лучше безопасность. Опять же, Claude Code программирует так круто, что при необходимости сам напишет большинство нужных вам функций.

Также чуть раньше появился режим Dispatch для Claude Cowork – напомню, Cowork работает с папкой или папками на вашем ПК, а Dispatch добавляет слой удаленного управления через мобильную версию. Перспективы такого подхода оценивать не буду, так как мне Cowork банально не понравился – в текущем виде он очень сырой и не дает чего-то нового в сравнении с Claude Code.

Зато я много времени работаю с OpenClaw, постепенно перетащив в него значительную часть личных и рабочих задач. В чат-боте осталась работа с большими текстами (их через телегу гонять не удобно) и простыми вопросами, а Claude Code запускаю, когда хочу покодить.

OpenClaw у меня запущен на арендованном виртуальном сервере, там же хранятся нужные документы, результаты анализа, workflow для разных задач, прототипы сайтов и программ – удобно, что все это доступно сразу через Telegram. Это не так дорого – VPS стоит до тысячи рублей в месяц, а на нем можно развернуть не только OpenClaw, но и другие полезные штуки.

Минус только в том, что Telegram достаточно ограничен по выводу информации: не более 4000 знаков в сообщении, не пропускает таблицы и сложное форматирование. Я обучил OpenClaw для сложных ответов верстать веб-страницу и выкладывать на сервер – получается быстро и почти без ошибок.

Но это все равно костыль, поэтому интересен подход, с которым, по слухам, сейчас экспериментирует OpenAI. Они хотят объединить ChatGPT, Codex и Atlas, получив, по сути, супер-приложение на их базе.

У каждого из трех приложений есть свои сильные стороны, которые можно использовать. ChatGPT – самое массовое ИИ-приложение в мире, его интерфейс понятен и привычен пользователям. Из Atlas можно забрать веб-слой, чтобы просматривать сайты напрямую, с ИИ-ассистентом, готовым прийти на помощь.

Наконец, Codex – база для агентских сценариев. GPT-5.4 в нем умеет работать с долгими задачами, разбивая их на куски, пробуя разные подходы и не забывая про самопроверку. Как и Claude Code, Codex обычно воспринимают как “штуку для программирования”, но на деле это универсальный инструмент, который годится для самых разных задач. А начать его использовать мешает скорее интерфейс командной строки (уже есть и десктоп-приложение) – если его заменить на что-то похожее на ChatGPT, то порог вхождения будет куда ниже.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.

5🔥40❤30👍28👏2😁2

10.3K views17:04

сбежавшая нейросеть

Большой дом

41-летний программист из Пекина Ма Жуйпэн три месяца назад уволился с работы, чтобы наконец-то начать свое дело. Но это не обычный бизнес: без офиса, склада, магазинов и сотрудников. Все, что есть у Ма – квартира в Пекине и три компьютера с установленными OpenClaw, Claude Code и Figma. Своего ИИ-агента Ма назвал “Большой дом” – в честь мечты заработать денег на покупку отдельного дома.

Пока что Ма заработал ноль юаней.

Выступая на BlackRock Infrastructure Summit, глава OpenAI Сэм Альтман рассказывал о стартапах без сотрудников, в которых люди “нанимают” для ведения бизнеса ИИ-агентов. Глава Anthropic Дарио Амодеи начал говорить о подобных микробизнесах еще год назад.

Но пока на Западе рассуждают, в Китае делают. Несколько недель как страну накрыл настоящий бум OpenClaw – по оценкам аналитиков, использование этого ИИ-агента в Поднебесной почти в два раза превышает американское.

IT-гиганты вроде Tencent, Zhipu AI и ByteDance выпускают свои версии OpenClaw, адаптированные под местные мессенджеры и ИИ-модели, и активно обучают население их использованию – в один из дней около 1000 человек выстроились в очередь в штаб-квартиру Tencent для бесплатной установки и консультации по агенту. Аналогичные мероприятия проводил Baidu в Пекине — приходили студенты, пенсионеры, офисные работники.

Бум OpenClaw накладывается на государственную политику по развитию OPC – one person company или бизнесов одного человека. Это логично, ведь ИИ-агенты выглядят идеальной дешевой рабочей силой – достаточно платить за простенький компьютер/сервер и токены.

Китайские провинции соревнуются во внедрении программ по поддержке OPC. Власти Шэньчжэня написали политику поддержки OpenClaw + OPC всего за три недели. В ней: 30% субсидия на покупку компьютера, три месяца бесплатных вычислительных мощностей, доступ к обезличенным датасетам, 18 месяцев скидки на офис и два месяца бесплатного жилья при переезде.

Другие провинции не отстают. Набор везде похожий: субсидии на вычислительные мощности, компенсация аренды офиса и жилья, беззалоговые кредиты и т. д. В Ухане даже обещают покрыть часть убытков в случае дефолта.

Интерес государства можно понять. На волне ИИ-бума Китай вложил в строительство дата-центров десятки миллиардов долларов, далеко не всегда грамотно планируя спрос – в итоге многие объекты остались незагруженными. ИИ-агент вроде OpenClaw тратит примерно в 10 раз больше токенов, чем привычные чат-боты – поначалу они компенсируются государством, но затем платить придется самим предпринимателям.

Малый бизнес традиционно считается одним из главных работодателей. Власти ожидают, что OPC привлекут молодежь за счет низкого порога входа. Это может помочь решить проблему молодежной безработицы в стране, которая превышает 17%.

Но есть и скептики. Пример Ма Жуйпэна, ничего не заработавшего с помощью ИИ-агента, не единственный – пока вообще никто не знает, как вести подобный бизнес. Самый стабильный доход у тех, кто устанавливает и настраивает OpenClaw – цена услуги начинается от 70 долларов.

Шансы на то, что вслед за волной хайпа вокруг OpenClaw-бизнесов начнется волна связанных с ними банкротств – велики. Но это типичное правило бизнеса: там, где десять прогорят – одиннадцатый построит что-то успешное, возможно, уже не на одного человека. Экономика страны в любом случае останется в плюсе – благодаря резко возросшему спросу на токены.

Обычно в конце подобных постов я пытаюсь примерить описанную историю на нашу действительность. Но сегодня получается с трудом. Telegram, Discord и прочие мессенджеры, популярные для работы с OpenClaw – у нас замедляются или заблокированы полностью. Лучшие агентские модели вроде Opus 4.6 и GPT-5.4 – заблокированы их разработчиками. Приведет ли OpenClaw-бум к рождению новой индустрии или к провалу – наблюдать, возможно, придется с обочины.

Хотя мы с вами прорвемся, я уверен.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там много интересного!

3👍92❤40🔥21😁5👏4

11K views17:18

сбежавшая нейросеть

Можно ли создать бенчмарк на AGI?

25 марта выходит ARC-AGI-3 от ARC Foundation – третья версия одного из самых интересных ИИ-бенчмарков. Упоминание AGI в названии наводит на мысль, что бенчмарк замеряет соответствие модели общему искусственному интеллекту – но все сложнее. Создатель ARC-AGI Франсуа Шолле называет бенчмарки скорее ориентиром на AGI – соревнуясь в них, разработчики поневоле будут тренировать свои модели одному из самых важных человеческих навыков. А именно – обобщению и рассуждению.

ИИ давно стали мастерами ответов на вопросы. И это неудивительно – ведь в их обучающую выборку помещены почти все человеческие тексты, огромное количество примеров кода, математических решений и так далее. Современная модель даст рецепт приготовления борща, решит домашку по математике, переведет текст на английский и напишет не сложную программу.

Но как только ИИ сталкивается с проблемой, которой нет в его обучающей выборке – вероятность ошибки драматически растет. Это пока человеческое умение – разобраться в задаче, найти похожие примеры и понять, как решать. И это тестируют бенчмарки ARC-AGI.

Первые две версии бенча похожи. ARC-AGI-1 вышел в 2019 году и насчитывал 800 задач-паззлов на основе сеток с цветными клетками. Модели сначала показывали сетку с условием, а затем сетку с решенной задачей – и так от 2 до 5 раз. На основе решенных задач ИИ должен был вывести правило, а затем уже самостоятельно решить по этому правилу новую задачу.

Для человека задачи ARC-AGI-1 были предельно простыми – многие решались за считанные секунды. А вот для ИИ долгие годы этот бенчмарк был практически неприступен – например, GPT-4o набирала в 2024 году около 5%.

Прорыв случился с выходом рассуждающих моделей – в конце 2024 года предварительная версия OpenAI o3 показала 75.7% при расходе токенов на одну задачу в 26 долларов. Тогда же бенчмарк попробовали взять грубой силой, выделив модели максимум ресурсов на размышления – результат вырос до 87,5%, но расход токенов подскочил до умопомрачительной цифры в 4 560 долларов! Сейчас бенчмарк практически “пройден”: Gemini 3.1 Pro берет на нем 98% при цене 0,5 доллара за задачу.

В марте 2025 года вышел ARC-AGI-2. Базовые правила были прежними, но задачи стали сложнее и разнообразнее. Если задачи ARC-AGI-1 человек решал за несколько секунд, то над ARC-AGI-2 приходится подумать – среднее время решения составило 2,7 минуты.

ARC-AGI-2 продержался чуть более 6 месяцев. Та же самая OpenAI o3 набирала в нем 2-3% в зависимости от длительности рассуждений. Но уже в ноябре Gemini 3 Pro показала 31%, а дальше бенчмарк “посыпался”: Opus 4.5 – 37,6%, GPT-5.2 Pro – 54,2%, Opus 4.6 – 68,8%, Gemini 3.1 Deep Think – 84,8%. Надо добавить, что средний человеческий уровень в ARC-AGI-2 равняется 60%.

По словам Шолле, в поведении моделей видно, что разработчики постепенно понимали, как натаскивать их на прохождение бенчмарка – сначала ARC-AGI-1, а затем и ARC-AGI-2. Но в этом нет ничего осудительного: получается, что как человеку нужно какое-то время на освоение навыка, так и ИИ – на дообучение под него.

Интересно, что сразу несколько стартапов и энтузиастов разрабатывали под ARC-AGI-2 альтернативные оболочки: в основе там лежали привычные модели вроде Grok 4, но менялся подход к проблеме – ИИ запускал много разных вариантов решения, а затем отбирал лучшие и “эволюционировал” их. В какой-то момент такие стартапы даже вырвались вперед, а эволюционную концепцию в будущем можно адаптировать под другие задачи.

ARC-AGI-3 не просто усложнит задачи – ИИ самому надо будет управлять интерфейсом, перемещать предметы, нажимать на кнопки. Фактически, это будет первый такой бенчмарк для ИИ-агентов. Посмотрим, как быстро он сдастся, но Шолле уже говорит, что у него есть идеи на 4-ю, 5-ю и 6-ю версии бенчмарка. Можете попробовать и сами – по ссылке есть три задачи.

Кстати, на Boosty у меня есть обзор бенчмарков ИИ – на какие советую смотреть при выборе и почему. Так что подписывайтесь на Boosty, там все больше интересного!

3🔥32👍19❤12👏3😁1

8.87K views19:46

сбежавшая нейросеть

AGI уже здесь – но никто не знает, что это значит

В последние дни сразу две крупных ИИ-персоны вновь подняли тему пресловутого AGI. 22 марта в подкасте Лекса Фридмана глава NVIDIA Дженсен Хуанг заявил, что AGI в каком-то виде уже здесь. Но с оговоркой.

Фридман дал свое определение AGI – это система, способная создать бизнес ценой в 1 млрд долларов и больше, а затем управлять им. Хуанг с иронией ответил, что да – уже сейчас Claude Code может “повезти” собрать вирусное приложение, которое заработает этот миллиард. Но даже 100 тысяч агентов не смогут управлять компанией вроде NVIDIA — шансы, по его словам, нулевые. И есть куда расти.

Позже суеты добавил Сэм Альтман, который взял за привычку переворачивать OpenAI с ног на голову каждые несколько месяцев. OpenAI закрывает Sora — генератор видео, запущенный полгода назад, — и перебрасывает вычисления на новую модель Spud. По словам Альтмана, она сможет "реально ускорить экономику".

Наконец, внутри компании появился отдел AGI Deployment – запуска AGI. Во главе стоит Фиджи Симо, которая сейчас отвечает за продуктовое направление, вроде ChatGPT. Гипотезы могут быть разными, но выглядит это так, будто в OpenAI считают Spud и последующие версии близкими к AGI и начинают готовить оболочку для этих моделей.

Интересно, что задолго до Хуанга и Альтмана про AGI заговорил Али Годси – CEO Databricks, компании-платформы для корпоративных данных и ИИ с оценкой в $134 млрд.

Еще осенью 2025-го Годси сказал, что AGI уже здесь – просто мы его не замечаем. В качестве подтверждения он привел в пример то, как 20 лет назад обсуждал AGI с коллегами в лаборатории как систему, которая будет свободно разговаривать с пользователем, рассуждать, находить паттерны данных. Собственно – все то, что современные модели умеют уже более года.

Дальше Годси как в воду глядел: по его словам, даже если “заморозить” модели, существовавшие на осень 2025 года, то на их базе можно делать ИИ-агентов, полезных для бизнеса. Собственно, это и стало происходить к концу года с ростом популярности Claude Code, Codex и OpenClaw.

В индустрии есть и другие мнения. Хассабис регулярно утверждает, что до достижения AGI нужны минимум прорыва – непрерывное обучение и долгосрочное планирование. Ян Лекун, один из отцов машинного обучения, вообще считает, что текстовые модели не достигнут AGI, так как они не понимают правил реального мира.

Но вот что интересно. В последнее время ведущие студии научились обновлять свои модели примерно раз в два месяца. Конечно, надо потратить еще какое-то время на подготовку обучающих данных, но уже сейчас можно говорить о том, что заложить какой-то нужный навык в ИИ можно за несколько месяцев. А это не дольше времени, которое профессиональный сотрудник тратит на то, чтобы освоиться на новом рабочем месте.

Впрочем, агенты вроде Claude Code уже обходят это ограничение – они учатся без переобучения модели: пишут себе workflow, дописывают код, сохраняют контекст. Не полноценное непрерывное обучение – но для бизнес-задач хватает. Да и с пониманием мира все становится лучше – компьютерное зрение у последних версий Gemini и GPT подтянули очень круто.

Сейчас каждый вкладывает в AGI то, что ему удобно. Хуангу важно продавать GPU, Альтману – привлекать инвестиции и искать источники прибыли. Лекуну – получать деньги на свои исследования. Сам AGI распался на кучу интеллектуальных задач: одни ИИ уже хорошо выполняет, другие – скоро научится.

В какой-то момент в будущем историки ИИ оглянутся назад – и назовут дату, от которой ведется отсчет AGI. Мой прогноз: или осень 2024 года (первые рассуждающие модели), или осень 2025-го (Opus 4.5 и GPT-5.2, ставшие основой для действительно мощных ИИ-агентов).

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!

1🔥60👍40❤27😁5👏2

8.35K views17:33

сбежавшая нейросеть

Что не так с ARC-AGI-3?

Недавно я рассказывал про бенчмарки на абстрактное мышление ARC-AGI. Теперь же вышел ARC-AGI-3, который вызвал множество вопросов – и к устройству самого бенчмарка, и к тому, правильно ли вообще измеряется эффективность ИИ.

Напомню: ARC-AGI замеряют способность ИИ обобщать знания для решения новых задач. В первых двух версиях модели видели пары “условие – решение” на цветных сетках, выводили правило и применяли его к новой головоломке. Оба бенчмарка сейчас можно считать пройденными.

ARC-AGI-3 стал заметно сложнее. Он состоит из интерактивных головоломок: игровое поле с разными фигурами, управление с помощью стрелок и не всегда понятная цель. ИИ дают возможность “видеть” поле и нажимать кнопки – и все. Дальше агент должен сам разобраться в управлении, догадаться о цели и решить задачу.

Результаты на первый взгляд обескураживают: люди – 100%, лучший ИИ (Gemini 3.1 Pro) – 0,37%. Но прежде чем отодвигать планку AGI, давайте посмотрим, как именно оценивают модели.

Организаторы отобрали 486 участников в Сан-Франциско, которые тестировали задачи бенчмарка. В финальный набор задача попадала только в случае, если ее с первой попытки проходили минимум 2 из 10 тестеров – то есть, в ARC-AGI-3 в принципе нет задач, которые решал бы ИИ, но не решал человек.

Далее в ARC Prize вывели метрику RHAE, которая считает эффективность ИИ в действиях относительно второго лучшего человеческого результата. Формула квадратичная: если человек прошел уровень за 10 действий, а ИИ за 100 — результат не 10%, а (10/100)² = 1%. Потолок 1.0 — модель не может набрать выше человека. Поздние уровни весят больше ранних.

Поэтому 0,37% — это не доля решенных задач, а эффективность относительно человека. Сколько именно уровней проходят модели, авторы не раскрывают.

Но самая большая проблема бенчмарка – отсутствие даже элементарной агентской обвязки. Те же Claude Code, Codex и OpenClaw для выполнения задачи пишут код, а полученные знания сохраняют в файлах типа Claude.md. Здесь каждую игру ИИ начинает с нуля с минимумом инструментов.

Создатель бенчмарка Франсуа Шолле объясняет это тем, что замеряет “сырой интеллект”: людей тоже сажали перед незнакомой игрой без подпорок. Но если поиграть самому, видно: в первых задачах усваиваешь принципы, которые работают и позже. А модель каждый раз стартует с нуля — сохранять знания между играми ей не разрешено. Плюс визуал быстро забивает контекстное окно — к концу раунда модель может забывать то, что узнала в начале.

Шолле верит, что прохождение ARC-AGI-3 станет вехой в развитии ИИ – как это было с предыдущими версиями. ARC-AGI-1 пал при появлении рассуждающих моделей, ARC-AGI-2 – на фоне прогресса агентских систем. ARC-AGI-3, по его логике, падёт тогда, когда появится что-то принципиально новое – например, непрерывное обучение, при котором модель обновляет свои веса прямо в процессе работы.

Но вот в чем ирония: современные агенты уже учатся без изменения весов. Claude Code пишет себе workflow, сохраняет контекст, дописывает код, который использует в будущем. Это не полноценное непрерывное обучение – но для бизнес-задач его хватает. И именно такой подход ARC-AGI-3 запрещает на официальном лидерборде.

На мой взгляд, ARC-AGI-3 замеряет реальную вещь – способность разобраться в незнакомом с нуля. Но способ замера не отражает то, как ИИ сегодня используется. Поэтому в ближайшее время интереснее следить за двумя другими площадками. Community leaderboard – где любой может запустить свою агентскую систему с любой обвязкой. И Kaggle-соревнование с призовым фондом $2 млн – где решения обязаны быть open source. Правда, пока и там негусто: через 12 часов после старта лучший результат на Kaggle не дотягивает даже до шаблонного решения.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!

4👍52❤18🔥13😁3👏2

9.21K views17:33

сбежавшая нейросеть

Не спрашивайте ИИ – заставьте его думать

Пока одни хоронят промпты, я продолжаю разбирать эту тему в подписке на Boosty. Собственно, вот новый лонгрид:

Как заставить ИИ думать глубже: 8 техник сильного промптинга

Действительно, агентские системы сейчас быстро вытесняют чат-боты. Но умение правильно писать запросы нужно и в работе с ними – иначе вы потратите больше времени, а результат будет хуже.

Кроме того, промпты – это универсальный язык обмена идеями. В основу сегодняшнего лонгрида я положил свои любимые техники, которыми пользуюсь месяцами. Но когда закончил работу, то понял – чего-то не хватает.

Я попросил Opus 4.6 и GPT-5.4 предложить, чем еще дополнить подборку. Отобрал самые интересные варианты, начал проверять и… вылетел из жизни на несколько часов – настолько свежими и интересными были многие подходы. Поделюсь, например, least-to-most (декомпозиция):

У меня есть канал в Telegram на 19 тысяч подписчиков, вдобавок к нему я хочу запустить платную подписку на Boosty. Разбери эту задачу по принципу least-to-most, поясни, что от меня требуется на каждом этапе и какие риски могут быть.

Другие классные промпты читайте в лонгриде. А в подписке уже накопилось 5 текстов, полезных любому, кто работает с ИИ.

Самое время присоединиться!

1🔥48❤20👍14😁14

9.07K views16:44

сбежавшая нейросеть

Мифическая капибара

Сегодня разбираем свежую утечку документов Anthropic: из-за кривой настройки CMS в открытом доступе оказались черновики постов о Claude Mythos и Capybara. Судя по всему, это одна и та же модель: текст в постах не отличается, поэтому в компании, похоже, выбирают одно из двух названий.

Амбиции впечатляют: уже сейчас Opus считается одной из самых больших моделей на рынке, но пост обещает, что Mythos станет еще больше. Интересный факт: весь 2025 год в ИИ-сообществе доминировал подход, что нет смысла дальше увеличивать размер модели, сгружая в нее все новые и новые знания – ИИ таким образом больше не умнеет, а вот находить качественные данные для обучения становится все сложнее. По слухам, та же GPT-5 – небольшая модель, при создании которой ресурсы были вложены в пост-тренировку (обучение модели лучше отвечать на вопросы) и улучшение цепочки рассуждений.

Но в конце года Gemini 3 Pro и Opus 4.5 показали, что большие модели легко могут брать первые места в бенчмарках. Особенно интересен Opus 4.5 / 4.6 – во многих тестах версия без режима рассуждений держится на уровне рассуждающей и даже превосходит ее.

Так что в 2026 году мы видим возвращение к старому подходу. По словам Илона Маска, размер Grok 5 будет в 6 трлн параметров – в 2-3 раза больше Grok 4. OpenAI также признала, что недостаточно вкладывалась в предварительное обучение – и в последних версиях GPT стала исправлять этот недостаток. Ну а теперь Anthropic, похоже, готовится задать новую планку.

По информации из поста, в ранних тестах Mythos показывает существенный прирост в заданиях на логику, написание кода и кибербезопасность – иронично, что Anthropic, утверждая о прорыве в кибербезе, сама допустила утечку информации из-за ошибки в конфигурации CMS 😄

Шутки шутками, но сразу после появления блог-поста, акции компаний, занимающихся кибербезом, мощно упали. В самой Anthropic опасаются, что у роста возможностей модели в этой области может быть обратная сторона – если злоумышленники найдут, как обойти алгоритмы защиты Mythos, то модель может быть использована для взлома. По этой причине Mythos пока тестируется группой клиентов, которым Anthropic доверяет больше всего.

Другая проблема – большая модель намного дороже в обслуживании, а у Anthropic и так одни из самых высоких цен на рынке. Тот же Opus 4.6 свободно получается использовать только на подписках Max ценой в 100 и 200 долларов – но после выхода Mythos, как мне кажется, даже на этих планах придется аккуратно подходить к выбору модели.

С другой стороны – у Anthropic нет модели уровня GPT-5.4 Pro или Gemini 3.1 Deep Think, доступной только на про-подписках, зачастую с ограничениями (у Deep Think 10 запросов в день).

Плюс в Anthropic уже работают над тем, чтобы сделать Mythos доступнее для массового пользователя – возможно, облегченные версии модели лягут в основу новых Opus и Sonnet. Хорошо, если они унаследуют высокие характеристики в кибербезе – сейчас большим препятствием в распространении OpenClaw и других ИИ-агентов являются опасения в их неустойчивости ко взлому. Новые модели могут решить этот вопрос.

В Anthropic подтвердили утечку, но не стали раскрывать дополнительных деталей, в том числе насчет даты выхода. Но полагаю, что компании придется поторопиться с запуском как минимум облегченных версий Mythos – ведь OpenAI готовит ответ.

Уже сейчас GPT-5.4 Thinking во многих областях идет наравне и даже обходит Opus 4.6. При этом во внутреннем письме к сотрудникам OpenAI, Сэм Альтман рассказал о завершении предварительной тренировки новой модели под кодовым названием Spud. Интересно, что ради Spud компания приостановила разработку Sora, а внутри OpenAI появился отдел AGI Deployment – запуска AGI. Насколько крутыми будут новые модели – узнаем совсем скоро, ведь по данным из того же письма, запуск Spud намечен на ближайшие недели.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!

👍60🔥23❤18😁3🥰1👏1

8.12K views11:25

сбежавшая нейросеть

Если правда, то это даже не выстрел в ногу, а сразу бросок гранаты без чеки

Прямо сейчас ИИ из продвинутого болтуна и забавного собеседника превращается в главный рабочий инструмент, ускоряющий экономику. Это пока плохо видно в статистике – она запаздывает, плюс не до конца понятно, как вычислять эффект от ИИ, который в основном используют “снизу”. Но это очевидно почти всем, кто работает в сфере ИИ и IT – люди, которые еще полгода назад посмеивались над навайбкоженными программами, сегодня не пишут ни строки кода без помощи Claude Code.

В России самые мощные модели ИИ заблокированы их разработчиками. Чтобы работать в Claude Code, Codex, настроить OpenClaw – приходится искать способы обхода этих блокировок, а также варианты оплаты через чужой регион. Многие сдаются, уходя на бесплатные версии или китайские модели попроще, кто доходит до конца – платит за подписку на 20-30% больше. Если утечка подтвердится, то в ближайшее время этот путь может стать еще более сложным.

Конечно, можно успокаивать себя тем, что наши-то возьмут и сделают свой ИИ ничуть не хуже заморского…

Нет, не сделают.

Чтобы натренировать хороший ИИ, нужно три вещи: парк ИИ-ускорителей, качественный датасет и хорошие ML-программисты. По ускорителям Россия полностью отрезана от официальных белых каналов. Их рынок контролируется США, а санкции в отношении России в этой области – одни из самых жестких. Даже в Китай допускается поставка урезанных версий чипов, к нам же – никаких.

Какое-то количество чипов ввозится серыми каналами, какие-то модели можно дообучить на зарубежных облачных площадках, но это просто другой масштаб. По этой оценке, парк ускорителей в России составляет около 20 тысяч устаревших A100. Для сравнения – в Epoch AI считают, что GPT-5 тренировали на 180-200 тысячах более мощных H200. А ведь это модель, устаревшая почти на 8 месяцев.

Видел новость, что один отечественный разработчик запросил 450 млрд рублей на строительство дата-центра для обучения ИИ – и получил отказ. Кстати, ведущие ИИ-компании США в 2026 году также вложат в инфраструктуру около 450 млрд – только долларов, а не рублей. Сравните масштаб.

Что дальше – качественные дата-сеты? В условиях, когда на интернет постоянно накладывают ограничения, собрать их будет очень непросто. Разработчики отечественных моделей любят делать упор на то, что они лучше справляются с русским языком, но будем честными – последние версии Gemini и Opus замечательно пишут на русском. Передовой ИИ должен хорошо писать код, разбираться в математике и офисных задачах – и здесь без международных материалов не обойтись.

Наконец, специалисты. Я с большим уважением отношусь к отечественным айтишникам, работаю рядом с ними и знаю, как много среди них талантливых ребят. Но помимо таланта важен и опыт, а его куда проще набрать в OpenAI, Anthropic или xAI с их практически неограниченными ресурсами. Я стараюсь следить за научными исследованиями в области ИИ – и работ из России вижу крошечный процент.

Как мне кажется, в таких условиях удастся создать ИИ, отстающий от лидеров минимум на год-полтора. И если для какой-то индустрии такое отставание ничего не значит, то в случае с ИИ – это пропасть между “кодит ерунду” и “пишет 90% моего кода”.

Дальше прогресс будет ускоряться: уже сейчас передовые модели Anthropic и OpenAI используются для улучшения своих будущих версий – и эффект на каждом новом витке может стать выше.

По грубой оценке, есть 1-3 года до момента, пока ИИ не начнет драматически влиять на все сферы экономики. И если за это время не решить проблему с широкой доступностью передовых моделей – мы рискуем отстать навсегда.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ, а в ближайшее время планирую начать публиковать распечатки программ для Радио РК-86 и схемы сборки ZX-Spectrum.

7👍209❤56🔥31👏17😁15

8.1K viewsedited 17:04

сбежавшая нейросеть

Knowledge cutoff – что за параметр ИИ и как с ним работать

Обучение большой языковой модели занимает от нескольких недель до нескольких месяцев. Да и данные, на которых тренируется модель, нужно подготовить – убрать из корпуса знаний совсем мусор, сделать разметку с пояснениями, где хороший пример текста, а где плохой.

В результате у всех моделей есть knowledge cutoff – дата (обычно месяц), по которую у них есть знания. Кстати, граница эта нечеткая: корпуса знаний для тренировки огромные, поэтому в них могут пропустить и какие-то события внутри knowledge cutoff и добавить что-то за его пределами.

C недавнего времени Anthropic стала давать сразу две даты для моделей Claude. Reliable knowledge cutoff – дата, по которую у ИИ есть уверенные знания. И Training knowledge cutoff – дата, по которую у модели есть частичные знания. Z бы проверял информацию внутри этого промежутка более тщательно.

В табличке в начале поста я собрал knowledge cutoff для большинства популярных моделей. В случае с ИИ от Google, Anthropic и OpenAI эту информацию можно взять из системных карточек моделей, то, например, с китайцами пришлось повозиться.

На вопрос what is your knowledge cutoff честно ответила только Kimi K2.5. С остальными пришлось проворачивать следующий промпт:

Не используя поиск в сети, назови главные события января 2025 года.

Если модель расскажет про реальные события – месяц попадает в ее корпус знаний. В противном случае ИИ соберет заранее известные события: даты праздников и запланированных крупных политических, общественных и спортивных мероприятий. С помощью нескольких таких промптов можно примерно вычислить нужный месяц.

Но если ИИ умеет добирать нужную информацию в интернете, то нужно ли вообще беспокоиться о его knowledge cuttof? Нужно: данные из корпуса знаний, заранее отобранные и проверенные специалистами, почти всегда качественные, а вот с тем, что нашлось в сети, есть проблемы.

К счастью, современные модели неплохо умеет отличать совсем уж дикую желтуху от качественной информации. Но дело в другом. Во-первых, проверяйте, додумалась ли модель вообще использовать поиск – обычно она пишет об этом серым шрифтом во время генерации ответа. Во-вторых, ИИ может банально не найти нужную информацию – по каким запросам он “гуглит” обычно можно увидеть, кликнув по тому же серому шрифту.

И третий, самый сложный, кейс – когда модели предстоит работать с событием, которое растянуто по времени на несколько недель, то она может найти только текущую ситуацию, но не собрать контекст предыдущих недель. В итоге ИИ будет путаться, додумывать ответы и давать неправильные оценки.

Лучшей в веб-поиске я считаю GPT-5.4 Thinking – она докапывается до неочевидных фактов и проверяет максимум деталей. Цена этого – даже на не очень сложный вопрос модель может отвечать до нескольких минут. Плюс мне не нравится стиль ее ответов.

Поэтому чаще я работаю с Opus 4.6 и там использую другой подход – он же подойдет для большинства ИИ. Knowledge cutoff этой модели август 2025 года, поэтому диалоги о более поздних событиях я начинаю со сбора информации. Например, если мне нужно установить или настроить OpenClaw, то стартую с такого промпта:

Мы будем работать с OpenClaw. Прочти в сети общую информацию об этом ИИ-агенте, а также найди и прочитай техническую документацию на него.

Или, например, я хочу прогнать через Opus 4.6 последние новости о лунной миссии Artemis II. Тут важно, чтобы у модели была хронология:

Мы будем обсуждать новости об Artemis II. Найди и прочитай свежую хронологию этой миссии.

В некоторых случаях модель и сама догадается собрать всю нужную информацию. Но такой подход надежнее, плюс у него есть еще один плюс – информация окажется в одном месте и в самом начале беседы, где модели будет проще ее читать при следующих запросах.

Кстати, на Boosty у меня есть отдельный лонгрид о том, какие характеристики моделей надо знать обычному пользователю. Не забывайте оформлять подписку – это всего 500 рублей в месяц за знания и практический опыт.

2❤49👍30🔥14👏2😁2

9.2K viewsedited 19:09

сбежавшая нейросеть

Разбираем возможные обновления Claude Code

Раз уж сегодня 1 апреля, то начнем с анекдота последних дней. Я уже писал, что Anthropic завершила работу над очередной моделью – Claude Mythos/Capybara. Новинка уже тестируется избранными партнерами, а отдельно в Anthropic отмечают то, насколько сильна “Капибара” стала в кибербезопасности.

Оно и видно: про Mythos/Capybara несколько дней назад все узнали из черновиков блог-постов, которые утекли в сеть из-за неправильной настройки CMS компании. А следом по ошибке одного из сотрудников в сеть утек исходный код Claude Code. Все 512 тысяч строк – и никакая капибара не помогла.

Утечка настолько мощная, что разбирать подробности ИИ-сообщество будет несколько дней. Пока вытащил самое интересное – скрытые функции, которые уже написаны, но еще не выпущены.

KAIROS

Пожалуй, самая мощная разработка. В этом режиме Claude Code превращается из инструмента, который ждет команды пользователя, в самостоятельного агента.

Раз в определенное время Claude получает “тики” – сигналы, по которым решает, нужно ли что-то сделать. Подписывается на вебхуки GitHub, ведет ежедневные логи, а когда пользователь не работает – запускает процесс под названием autoDream.

Да, “Клод видит сны”: отдельный субагент анализирует проделанную работу и переносит все полезные знания в файлы памяти. Очень похожий алгоритм уже реализован в OpenClaw. Добавляем сюда то, что Anthropic уже реализовала возможность управлять Claude Code через мобильное приложение – и делаем вывод, что компания думает об аналоге OpenClaw, но заточенном под кодинг и безопасность.

ULTRAPLAN / ULTRAREVIEW

В Claude Code уже есть режим планирования, вызываемый командой /plan – в нем модель задает пользователю вопросы и предлагает архитектуру будущего проекта. Судя по всему, ULTRAPLAN – режим планирования на максималках. Он работает на Opus 4.6 и запускается в отдельном контейнере, а на планирование тратит до 30 минут. За процессом можно наблюдать удаленно: если результат нравится, то одобрить, если нет – отправить на переработку.

ULTRAPLAN пригодится там, где обычного режима недостаточно – масштабный рефакторинг, миграция архитектуры, сложная отладка и т. д. Также в коде нашли ULTRAREVIEW – нечто похожее, но для код-ревью.

Coordinator

Это или развитие уже существующего режима Agent Teams или его альтернативная версия. Идея похожая: есть ИИ-координатор, который рулит сразу несколькими агентами, независимо работающими над разными частями проекта.

Процесс организован масштабно: воркеры исследуют кодовую базу, тимлид раздает им задачи, а для проверки привлекается даже “адвокат дьявола” – отдельный ИИ-агент, прогоняющий результат через многочисленные тесты.

Buddy

И обновление, которое доступно уже сейчас: запускайте Claude Code, обновляйте до последней версии, пишите /buddy – и ловите питомца!

Именно так – не всем же обновлениям быть серьезными! Buddy – это встроенный в Claude Code питомец-тамагочи (!) с гача-механикой (!!!). При первом запуске выпадает существо одного из 18 видов — от Dustbunny и Mossfrog до легендарного Nebulynx.

Вид определяется хешем аккаунта: один пользователь — всегда один и тот же питомец. Шанс получить легендарного — 1%, а поверх этого есть отдельный 1% на “блестящую” версию. Блестящий легендарный Nebulynx — шанс 0,01%.

У каждого питомца пять характеристик: Debugging, Patience, Chaos, Wisdom и Snark. Плюс стили глаз, шляпы (часть привязаны к редкости), ASCII-спрайты с анимацией и “описание души”, которое Claude пишет при первом вылуплении.

Я уже своего поймал – досталась… капибара! Буду кормить ее получше, чтобы не слила в сеть какие-нибудь мои секреты.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!

❤67😁33🔥17👍11👏2

8.07K viewsedited 13:49

сбежавшая нейросеть

Через текст к AGI?

Президент OpenAI Грег Брокманн дал интервью Алексу Кантровицу, в котором поделился планами компании на ближайшее и отдаленное будущее, а также пояснил, почему были приняты некоторые решения – в том числе, почему компания остановила разработку Sora. С ней кстати все просто: основная цель OpenAI – достичь AGI, пресловутого общего ИИ, который будет справляться с любой интеллектуальной работой, доступной человеку.

Долгое время к языковым моделям вроде GPT выдвигали одну большую претензию – они отлично ориентируются в текстах, но не понимают, как устроен реальный мир. Модели писали красивые тексты, но начинали “плыть” в относительных размерах предметов и оценке того, как быстро идет время.

Буквально год назад никто не знал, можно ли исправить эту проблему или она в какой-то момент станет препятствием в дальнейшем развитии текстовых моделей. Поэтому крупные исследователи параллельно экспериментировали с “моделями мира”, обучаемыми на видео. Некоторые и вовсе утверждали, что только через них можно достичь AGI – так, например, считает один из отцов машинного обучения Ян Лекун, который обучает свою линейку JEPA (простите) именно на визуальных материалах.

OpenAI шла к моделям мира через Sora, но сейчас, по словам Брокманна, в компании видят, что текстовые модели все лучше понимают реальный мир и его правила. Тут соглашусь: последние версии GPT и Gemini обладают отличным компьютерным зрением.

Почему компания не сохранила Sora как отдельное видео-направление? Грег демократично объясняет это дефицитом GPU – в OpenAI решили перекинуть все ускорители на обучение новых версий GPT, а команда Sora продолжит исследовательские работы над мировыми моделями уже для роботов. Это более отдаленная перспектива.

Но стоит добавить, что проект просто провалился. По внешним оценкам, Sora генерировала около миллиона долларов убытка в сутки, за все время существования принеся чуть больше 2 млн долларов выручки. При этом количество пользователей стабильно падало: с 1 миллиона на старте и до 500 тыс в последнее время.

По сути, у OpenAI был простой выбор: продолжать тянуть убыточную Sora, которая на данный момент просто забавная игрушка, или переключиться на текстовые модели, которые в последнее время стремительно умнеют и приносят все больше денег, работая в кодинг-агентах вроде Codex.

Будущая такая модель OpenAI – Spud. По словам Брокманна, модель лучше понимает контекст и логику, что убирает неловкие случаи “когда ИИ должен был сам догадаться”. Параллельно компания работает над супераппом, который объединит ChatGPT с кодинг-агентом Codex и браузером Atlas. По срокам супераппа ничего не ясно, но Spud мы увидим совсем скоро – пред-тренировка модели завершена.

Осенью этого года в OpenAI планируют запустить “младшего ИИ-исследователя”
– сначала внутри компании для собственных исследований и экспериментов с научной работы. По сути, это этап ИИ, который улучшает сам себя. Еще во время разработки GPT-5.3-Codex в OpenAI использовали ранние версии модели для оптимизации финальной. Брокманн считает, что далее может настать фаза “взлета”, когда прогресс перестанет быть линейным: ИИ ускоряет разработку ИИ и создает новую версию, которая ускоряет разработку еще лучше – и так далее.

(От себя добавлю, что мечта красивая, но всегда могут быть архитектурные преграды, которые замедлят или разорвут такой цикл)

Наконец, если говорить об AGI, то Брокманн оценивает его готовность на 70-80%, оговариваясь, что прогресс будет “рваным”: то есть, модель сначала полностью возьмет на себя интеллектуальную работу в определенных больших областях – а затем этот навык расширится на другие.

Когда Кантровиц прямо спросил, не рискует ли OpenAI упустить что-то важное, отказавшись от моделей мира, Брокман согласился. Сейчас в области ИИ приходится выбирать, и OpenAI выбор сделала. Посмотрим, окажется ли он успешным.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!

2🔥47👍39❤19👏2

9.03K views18:36

сбежавшая нейросеть

Как выжать максимум из работы с ИИ

Мое отдельное увлечение – брать техники из менеджмента и проверять, как они работают с ИИ. А сегодня собрался с силами и описал свои самые любимые приемы в новом лонгриде для Boosty:

Ваш ИИ "халтурит": техники, которые помогут выжать из него максимум

Некоторые техники работают “в лоб”, с другими интересно покреативить. Например, знаменитый подход Five Whys, который придумали в Toyota: когда что-то идет не по плану, ты задаешь себе пять “Почему?”, начиная с банальных гипотез и от них добираясь до сути проблемы.

Казалось бы, с ИИ такое не сработает – ведь “почему?” надо спрашивать у самого себя. Но можно поменять угол: описываем модели свою идею, что ждали и что получили в итоге. А затем ИИ пусть задает вопрос “почему?” самому себе и выдвигает гипотезу.

Чем-то это похоже на прием в бизнесе, когда приглашают специалиста со стороны и он задает вопросы с нуля. Многие из них звучат банально – но так ситуацию видит человек, не погруженный в нее долгое время. И свежий взгляд иногда отлично помогает решить проблему. Вот промпт:

[Описываем идею и ожидания от нее].

[Описываем текущий результат].

Давай применим технику Five Whys: ты задаешь вопрос "почему результат не соответствует ожиданиям?" и сам отвечаешь на него гипотезой. При необходимости я даю комментарий и мы идем к следующему "почему?". Не ориентируйся на 5 вопросов - будем копать до момента, пока не найдем реальную причину.

Еще пять классных техник работы с ИИ читайте в лонгриде. А в подписке уже накопилось 6 текстов, полезных любому, кто хочет выжать из нейросетей максимум.

Самое время присоединиться!

1❤43🔥19👍16😁8🥰1

7.41K viewsedited 18:16

сбежавшая нейросеть

Собрались отменять подписку на ChatGPT Plus? Сразу две причины этого не делать

На Arena.AI тестируют сразу три новых модели генерации изображений под названиями packingtape-alpha, maskingtape-alpha, gaffertape-alpha – и почти все ИИ-сообщество сходится в том, что это ранние версии GPT Image 2.0. На мой взгляд, вероятность этого примерно 70% – стиль действительно похож на ранние версии, плюс с помощью некоторых трюков получается вытащить из модели ее название и она говорит о себе как о ChatGPT.

Примеры изображений в начале поста. Качество генерируемых фотографий и картинок оценивать сложно: их все передовые модели генерируют хорошо, качество же проявляется в мелочах, а их можно заметить после 20-30 генераций минимум.

Но видно, что модель отлично работает со шрифтами и интерфейсами, также у нее хороший уровень world knowledge – осведомленности о реальном мире.

Мне текущая GPT Image 1.5 очень нравится за счет художественности генерируемых изображений – здесь она лучше Nano Banana 2. А вот модель от Google, со своей стороны, всегда была лучше в работе со шрифтами, инфографикой и картами. Теперь есть шанс, что OpenAI наверстает и в этом направлении.

Вторая новость менее приятная – Anthropic начала борьбу с использованием Claude в OpenClaw. Ранее самым выгодным вариантом было приобрести подписку Pro или Max, установить Claude Code, вытащить из него ключ авторизации OAuth и закинуть в OpenClaw. После этого ИИ-агент начинал расходовать те же самые лимиты, что и подписка.

Но вчера в ночи пользователи (в том числе и я) стали получать “письма счастья”, что ключ OAuth будет блокироваться в сторонних сервисах и начнут как раз с OpenClaw. Теперь пользоваться разрешено только через API, что в разы повышает ценник. В качестве компенсации можно получить API-кредитов на сумму, равную цене подписки, но этого хватит разве что на переходный период.

Почему так происходит? Модели Claude в подписках Pro и Max действительно обходятся в разы дешевле, чем если покупать токены по API. Но тут есть маленькая хитрость – мало кто расходует лимиты подписок прямо на все 100%. Я плачу за 100-долларовую Max и обычно расходую 60-80% недельного лимита. При этом на последней неделе у меня было много рабочих поездок и личных дел – и лимит не вышел даже в 40%.

Соответственно, цену на подписки в Anthropic выставили с учетом такого неполного расходования лимитов пользователями – так что для компании потеря относительно API если и есть, то небольшая. Проблема OpenClaw в том, что он с большой вероятностью повышает расход токенов на подписках. Во-первых, из-за продвинутой системы памяти он в целом расходует больше токенов, чем чат-версия и Claude Code. Во-вторых, OpenClaw может работать по расписанию – выполнять какие-то задачи ночью, присылать вам напоминалки и дайджесты по графику. Это тоже повышает загрузку.

Как результат, экономика подписок Pro и Max у Anthropic явно начала ухудшаться. Сначала компания экспериментировала с лимитами: сделала их более строгими в американский прайм-тайм, но ослабила в остальное время. Теперь же настала очередь для внешних сервисов.

Если использовать Claude по API в OpenClaw, то легко можно стать банкротом – повторюсь, расход токенов у этого агента очень большой. Так что остается одна альтернатива – GPT-5.4. Ее можно использовать по OAuth через Codex, причем лимиты приличные даже в 20-долларовой подписке. Мне не очень нравится стиль общения GPT-5.4, но посмотрим – может в OpenClaw ее получится настроить лучше.

Еще одна потенциальная причина ограничений – Anthropic явно работает над собственным ИИ-агентом. Систему под названием Conway уже попробовали некоторые тестировщики – идея там похожая на OpenClaw, но с более строгими ограничениями по интерфейсу и безопасности. Сроки выхода пока неизвестны.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ.

2❤52👍33🔥6👏2

8.33K views11:04

About

Blog

Apps

Platform