сбежавшая нейросеть
19.9K subscribers
198 photos
54 videos
192 links
Авторский канал про искусственный интеллект: новости, примеры использования, мысли в тему и не очень. Подписывайтесь!

Я в Boosty: https://boosty.to/escaped_ai

Для связи: @runawayllm_bot
Download Telegram
Впечатления от GPT-5.4

Все выходные провел с GPT-5.4 – неплохая нейронка, но OpenAI продолжает наступать на одни и те же грабли.

Начнем с выбора модели в ChatGPT. Год назад OpenAI высмеивали за селектор с GPT-4o, GPT-4.5, o1, o3-mini-medium, o3-mini-high. Ничего не изменилось. С GPT-5 обещали роутер, который сам выбирает подходящую модель – его запустили, но работает так себе. Поэтому приходится переходить в ручной режим. А там…

Начнем с GPT-5.3 Instant – ты что вообще такое? Раньше деление Instant/Thinking было в рамках одной версии, теперь версии разные. Зачем? OpenAI ответа не дала: GPT-5.3 Instant запустили за несколько дней до GPT-5.4, презентовали как лучшую чат-модель – и все, даже результаты бенчмарков не дали. У 5.3 и 5.4 разный стиль ответов, поэтому можно предположить отличающуюся архитектуру – но это мои догадки.

GPT-5.4 работает только в рассуждающем режиме и думает от десятков секунд до минут. Есть настройки длительности рассуждений Standard и Extended Thinking, но я большой разницы не заметил.

Можно долго хвастаться бенчмаркам, но важен и стиль ответов – понятный, бодрый, а на русском без англицизмов и не переведенных слов. Claude Sonnet/Opus и все версии Gemini с этой задачей справляются, а вот у GPT – большие проблемы.

GPT-5.3 пытается юморить, сыпет эмодзи и ведет себя как дружелюбный чат-бот. Но часто выскакивает старая проблема OpenAI, когда модель может настрочить гигантский ответ, который на 80% будет состоять из списков и табличек.

У GPT-5.4 другая беда. Модель или старается писать обычным текстом, но делает это тяжеловесными абзацами, в которых постоянно выделяет жирным самое важное, или текст и вовсе “рвется” и модель соскаикивает на абзацы в одно предложение.

Интересно, что в англоязычном интернете GPT-5.4 хвалят именно за креативность в текстах, но я сегодня специально пару часов переписывался с ней на английском и увидел те же проблемы. В общем, дружелюбного и веселого чат-бота в стиле GPT-4o в ChatGPT больше нет – а ведь именно за это приложение любил массовый пользователь.

Что есть? GPT-5.4 традиционно хороша в веб-поиске. Модель зарывается в интернет по уши, проверяя буквально каждый факт в своем ответе. Оборотная сторона здесь есть: веб-поиск занимает время, поэтому GPT-5.4 нередко может тратить 1-2 минуты, отвечая на простенький промпт.

Еще модель хороша как критик. Она не подхалимничает и может разобрать любую идею по косточкам, указав на сильные и слабые стороны. У меня основная модель Opus 4.6, и GPT-5.4 выглядит отличным дополнением – если я не уверен в ответе, то просто перекидываю в нее для дополнительной проверки.

Аналогично и с кодингом: проекты я создаю в Claude Code, а вот проверки и тестирование делаю с помощью Codex – раньше это была GPT-5.3, теперь вот 5.4. Модель внимательная, очень быстрая, а главное – у нее появился пресловутый computer use.

Тут посыплю голову пеплом – в анонсе я запутался и написал, что управление компьютером будет во всех версиях, в том числе в ChatGPT. Это не так: ограниченное использование компьютера доступно только по API и в Codex – причем в Codex сначала надо установить скилл Playwright (Interactive).

С ним GPT-5.4 начинает “видеть” интерфейсы сайтов и приложений (web и Electron), кликать по ним, проверяя, все ли работает и насколько все удобно. Не забудьте переключить в headed-режим (делает браузер видимым) и наслаждайтесь тем, как нейронка в ходе разработки сайта открывает его и смотрит, правильно ли все получается. Кстати, таким же образом GPT-5.4 можно натравить на сайт в онлайне, чтобы изучить его дизайн или достать нужную информацию.

Резюме? Несмотря на сказанные гадости, GPT-5.4 удалась – в первую очередь благодаря возможностям в кодинге – причем это не только мои ощущения, но и отзывы программистов, которых уважаю. Но OpenAI явно надо что-то делать со стилем ответов модели – сейчас порог входа в ChatGPT выше, чем в Sonnet/Opus и Gemini.

Ловите "сбежавшую нейросеть" в: Telegram / на парковке.
4👍8835🔥27😁3
Промпты для Nano Banana 2

Nano Banana 2 как-то прошла мимо моего внимания, а ведь это отличная рисовалка – быстрая, умная и доступная бесплатно в Google Flow. Google сегодня выкатила руководство по этой модели, в котором есть несколько полезных советов.

Используем веб-поиск

Когда речь идет о реальных объектах, то Nano Banana 2 не только опирается на свои обучающие данные, но и использует веб-поиск, чтобы посмотреть реальные фото объекта. В Google советуют добавлять в промт явное указание модели убедиться, что объекты, персонажи и ландшафт на изображении соответствуют реальным. Например:

Нарисуй дом-корабль на Тульской в Москве в аниме-стиле. Убедись, что архитектурные детали, окружающие здания и ландшафт соответствуют реальности.

Вот еще один интересный пример:

Нарисуй инфографику, как изменилось представление об облике велоцираптора со времени "Парка юрского периода" и по наши дни. Убедись, что информация на инфографике соответствует реальным научным представлениям. Убедись, что все надписи на инфографике выполнены на русском языке без ошибок.

Обратите внимание – я добавил в промпт инструкцию писать только на русском. В противном случае модель в некоторых местах срывается в белиберду.

Google Street View и другие приколы

Другое излюбленное развлечение в Nano Banana 2 – генерировать исторические события в современных интерфейсах.

Например, строительство Великой пирамиды в Гизе:

Сгенерируй гиперреалистичное изображение строительства Великой пирамиды в Гизе, около 2560 года до н.э., в стиле Google Maps Street View. Тысячи рабочих тянут каменные блоки по пандусам, пирамида наполовину построена. Интерфейс Google Maps, водяной знак "© Google –2560". Все лица размыты. Палящее солнце, пыль, высокий ISO.


Или Tinder-профиль Клеопатры:

Сгенерируй скриншот Tinder-профиля Клеопатры. Она изображена на фоне Александрийского маяка, золотые украшения, подведённые глаза (убедись, что выглядит как фото, а не рисованное изображение). Имя "Клеопатра, 28", био: "Царица. Люблю яхты по Нилу. Не пишите, если вы не минимум консул. 🐍". Интерфейс Tinder с кнопками лайка и дизлайка, расстояние "3 200 км". Соотношение сторон 9:16.

(Я смахнул влево – симпатичная, но 3 200 км как-то далековато)

Отмечу, что в рисовалках хороший результат редко получается с первого раза. В отличие от текста, у изображения намного больше опций: стиль, угол и расположение камеры, свет, погодные условия – поэтому на старте модель многое выбирает от себя. Я обычно начинаю с общего промпта, а затем дописываю конкретные инструкции.

Например, Клеопатру Nano Banana 2 упорно делала “рисованой” – просто потому, что таких изображений в ее обучающей подборке больше. Поэтому пришлось добавить в скобки, что должно выглядеть как фото.

Нестандартные соотношение сторон

Nano Banana 2 умеет рисовать с соотношениями сторон 4:1 и 8:1 (а также 1:4 и 1:8, если нужны вертикальные картинки). Такие соотношения хорошо подходят для комиксов – жаль только, что сами комиксы модель пока рисует с 5-10 попыток, чтобы получилось хоть что-то приличное.

В итоге взял достаточно простой вариант с кошкой в разных эпохах:

Создай горизонтальный комикс из 4 панелей (4:1). Один и тот же запрос "нарисуй кошку" — результат в разных эпохах: 1) Наскальный рисунок охрой 2) Египетская фреска с богиней Бастет 3) Ренессансная картина маслом, кошка в позе Моны Лизы 4) Промпт в нейросети — фотореалистичный кот в космосе. Все стили соответствуют эпохе.

Отмечу, что для иллюстрации текстов и постов я чаще использую GPT Image 1.5 – эта модель умеет “нарисовать красиво”. У всех версий Nano Banana изображения часто получаются будто с бесплатных фото-стоков, но при этом модели от Google впереди по точности следования промпту и интересному функционалу – как, например, использование поиска.

Ловите "сбежавшую нейросеть" в: Telegram / на парковке.
167👍31🔥16😁3
Каляки-маляки

Я сегодня почти дописал серьезный пост про то, сколько кода реально пишет ИИ, но потом пришла Anthropic и все испортила. В общем, встречаем новый функционал в чат-версии Claude – Visualizer. С его помощью Claude теперь прямо в диалоге может делать интерактивные визуализации – схемы, графики, таймлайны, разборы “как это работает” и так далее.

Это не еще одна рисовалка по типу Nano Banana 2 или GPT Image 1.5 – Claude Visualiser пишет код в SVG и html, а затем выводит результат прямо в чате. Что-то похожее раньше можно было делать с помощью режима Artifacts, но артефакты открываются в дополнительной боковой панели, что не совсем удобно. Куда круче, когда подобный интерактив встраивается прямо в чат, дополняя текст.

Первое, что пришло в голову – попросить Claude нарисовать схему, как со временем менялось представление ученых об облике Ти-рекса (я люблю на похожих промптах тестировать классические рисовалки). Получилось… необычно. Но моя дочка оценила – сказала, что она тоже так умеет рисовать.

Но это скорее шутка, реальная область применения Visualiser – это интерактивные схемы, графики, диаграммы. Пока писал пост, Claude мне показал, как устроен дифференциал автомобиля, как бродит тесто и что происходит внутри эспрессо-машины.

Самый простой способ получить визуализацию – начать промпт с инструкции “Сделай визуализацию…”. Работает на всех тарифных планах, в том числе бесплатном, на моделях Opus 4.6 и Sonnet 4.6 (Haiku не стал пробовать), в быстром и рассуждающем режиме. Я пока не понял, может ли Claude сам по себе рисовать визуализации, когда посчитает, что это нужно – буду тестировать дальше.

Учитывайте, что навыки Claude в визуализации пусть и круто прокачали, но пока еще не довели до идеала – поэтому сложные ответы стоит воспринимать с определенной долей скепсиса. Например, интерактивную схему, как развивалось метро Москвы по десятилетиям, Claude нарисовал очень примерно – все ветки на местах, но вот их положение совсем примерно. А вот с аналогичным заданием для Ленинграда/Санкт-Петербурга нейронка справилась намного лучше.

Впрочем, ИИ в фронтенде сейчас улучшается с огромной скоростью, поэтому почти уверен – через 3-6 месяцев большинство визуализаций станут точными.

Сама по себе функция точно станет популярной. Современными ИИ давно уже тесно в формате чат-бота, поэтому все разработчики экспериментируют с добавлением визуала в ответы: это могут быть как картинки, найденные в сети или сгенерированные в Nano Banana, так и подобные визуализации – по сути, мини-программы, запускаемые прямо в чате с целью помочь вам понять информацию.

В более отдаленном будущем мы наверняка придем к тому, что у ИИ будет нечто вроде интерактивного “рабочего стола”, на котором он генерирует максимально подходящий для запроса ответ. Где-то это будет текст, где-то графика, где-то видео, а где-то – человекоподобный аватар для беседы.

Ловите "сбежавшую нейросеть" в: Telegram / на парковке.
3👍6030😁15🔥10
На какие бенчмарки стоит смотреть, выбирая ИИ?

Пятница, а значит на платном канале в Boosty вышел очередной лонгрид – в нем я разбираю бенчмарки. Когда выходит новая модель, то первое, на что мы бросаемся смотреть – это на циферки в таблице. Где главный прорыв, где топчется на месте, а где – откат назад.

Но меряться процентами – это одно, а совсем другое – использовать результаты бенчмарков для выбора ИИ. Некоторые уже не актуальны, другие заточены под сложные научные задачи, в то время как пользователю нужна помощь в написании заголовков для блога и разборе домашки ребенка.

В тексте я подобрал именно бенчмарки, на которые стоит смотреть всем нам – офисным работягам, юристам, продакт менеджерам, редакторам, любителям поболтать с ИИ, навайбкодить проект за пару вечеров, выполнить сложный поиск в интернете и нагрузить нетривиальную задачу на OpenClaw.

Плюс в конце бонусом небольшой рассказ про ARC-AGI и FrontierMath – за этими двумя бенчмарками я советую следить в плане “общего прогресса” ИИ и достижения пресловутого AGI.

В общем, подписывайтесь на Boosty: новые лонгриды выходят раз в неделю, а глобальный план – собрать из них небольшой курс по ИИ, который будет полезен и новичкам, и опытным пользователям.
🔥26😁8👍65👏1
Без ИИ код не пишу!

10 марта 2025 года Дарио Амодеи дал знаменитый прогноз – “через 3-6 месяцев 90% кода будет писать ИИ, а через год – весь код вообще”. Очевидно, что это была маркетинговая фраза, от которой сам Амодеи затем изящно отскочил – осенью прошлого года он заявил, что 70-90% кода в Anthropic и ряде дружественных компаний действительно пишутся ИИ. Значит, он прав, а если кто-то не кодит с помощью ИИ – это это его проблемы.

Но что же реально происходит с ИИ-кодом за пределами Anthropic? Я копнул материалы и столкнулся с классической проблемой исследований на тему ИИ – они устаревают быстрее, чем успевают выйти. Исследование нужно спроектировать, набрать основную и контрольную группы, изучать их какое-то время, затем собрать и обработать материалы, пройти независимое рецензирование… в общем, теперь вы понимаете, когда в серьезной бумаге от какого-нибудь Оксфорда сравнивают GPT-4o и Gemini 1.5.

Но одна интересная находка все-таки есть. В феврале-июне 2025 года METR набрали 16 опытных open source разработчиков. Разработчики предлагали задачи, а исследователи случайным образом решали – будет ли задача решаться с помощью ИИ или руками. Основным инструментом был Cursor с Claude 3.5/3.7. За участие платили $150 в час, что примерно на уровне зарплаты опытного инженера.

В начале эксперимента разработчики прогнозировали, что ИИ ускорит их на 24%. По итогам эксперимента они оценили ускорение от ИИ на 20%. Однако по замеру METR, скорость выполнения задачи с помощью ИИ…упала на 19%.

В августе 2025 года METR отобрали уже 57 разработчиков: 10 участников прошлого исследования и 47 новичков из проектов разной сложности. Из-за ограниченности бюджета ставку снизили до $50 в час – это заметно хуже реальных зарплат по рынку и, по словам организаторов, могло повлиять на результаты.

Вернее, на их отсутствие – второй этап просто провалился. Схема была прежней: разработчики предлагали задачи, система выбирала “ИИ/вручную”, а затем… разработчики массово отказывались от задач, которые надо делать без помощи ИИ. Вот одна яркая цитата:

Я избегаю задач, где ИИ закончит за 2 часа, а мне придется потратить 20.


Когда в METR обработали те данные, которые удалось собрать, стало ясно, что для участников первого эксперимента ускорение составило примерно 18%, а для новичков – 4%. Статистическая значимость на этих цифрах вышла в окно, но главный итог в другом – буквально за полгода опытные разработчики так привыкли использовать ИИ для своих задач, что уже просто не хотят кодить без его помощи. Вот еще цитата:

У меня голова взорвется от работы по-старому — это как пересечь город пешком, когда привык ездить на Uber.


В METR поделились и другим интересным наблюдением: оценивать эффективность стало сложнее еще потому, что многие разработчики, запустив агента кодить, в параллели брались за другую задачу. Это становится новой нормой для ИИ-кодинга – я писал про Джеффа Эммануэля, который оплачивает сразу 22 подписки Claude Max. Он кодит с помощью целой своры ИИ-агентов, делая 2000-3000 коммитов на GitHub в неделю. Подход Джеффа скорее исключение из правил, но запускать 2-3 агентов для работы над разными задачами способен, пожалуй, каждый.

В итоге в METR признали, что уверены в ускорении кодинга, но не могут доказать это на цифрах. Сейчас организация создает очередное исследование, но вряд ли и оно будет успешным – развитие ИИ-инструментов настолько резкое, что его, возможно, нереально измерить в цифрах.

А самое интересное, что кодинг тянет за собой всю остальную работу. У Claude Code, Codex и OpenClaw есть особенность, которую пока осознали не все – обладая продвинутыми навыками кода, эти агенты уже сейчас могут собрать вам инструмент под почти любую задачу. Так что Амодеи, возможно, и промахнулся с цифрами — но направление угадал точно.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.
🔥52👍3729👏2😁1
Спасти Роузи

Видели новость, которая пришла к нам будто бы со страниц доброго фантастического романа? В Австралии ML-специалист Пол Конингем с помощью ИИ и ряда лабораторных инструментов создал персонализированную мРНК-вакцину от рака для своей собаки Роузи. И добился пусть пока не исцеления, но заметного прогресса.

Как это вообще возможно? Ведь даже человеческие персонализированные мРНК-вакцины еще не выпущены в широкий оборот – самые перспективные из них проходят третью стадию клинических испытаний.

Любой рак – это всегда ошибка иммунной системы. Раковые клетки появляются в организме каждый день, но обычно с ними расправляется иммунитет. А вот если не справляется – настает время для страшного диагноза.

А еще рак – это мутация, а она у каждого индивидуальна. Не имея возможности попасть в цель, врачи десятилетиями били по площадям – удаляли пораженные органы, заливали организм токсичной химией и облучали радиацией.

Почему нельзя было бить точнее? Создание лекарств – это работа с массивами данных, обычно медленная и дорогая. С развитием машинного обучения все стало меняться: если еще десять лет назад определение структуры одного белка занимало до года и стоило сотни тысяч долларов, то в 2020 году легендарная модель DeepMind AlphaFold 2 с помощью машинного обучения вычислила структуры почти всех известных белков. Все они в открытом доступе.

ИИ используются и на других этапах создания лекарств, для перечисления которых не хватит поста. Но самое важное – теперь можно создавать не только “усредненные” препараты, но и “подгонять” их под пациента.

В случае с персонализированными мРНК-вакцинами врачи сравнивают ДНК здоровых тканей с ДНК опухоли и ищут в последней мутировавшие белки – неоантигены. Далее алгоритмы машинного обучения отбирают те, которые с наибольшей вероятностью вызывают иммунный ответ и создают на их базе вакцину. Если все сработало как надо (напомню, сейчас идут только клинические испытания), то иммунитет пациента начинает “видеть”, раковую опухоль – и принимает участие в ее уничтожении (обычно вакцины комбинируют с другими препаратами).

Таким же путем пошел и Пол Конингем с Роузи. Когда традиционное лечение не помогло, он обратился к ChatGPT с запросом, какие есть перспективные терапии рака – ИИ разобрал основные подходы, помог выбрать лучший и наметил дальнейшие шаги.

В первую очередь Пол секвенировал ДНК здоровых клеток и опухоли Роузи, отдав за это 3000 долларов. Для анализа ДНК Пол использовал все ту же AlphaFold – она сейчас доступна бесплатно для научных целей. Модель Google помогла ему подобрать индивидуальные “мишени” для вакцины.

Создать вакцину помог Палл Тордарсон, директор Института РНК при UNSW. А ввести препарат вызвалась Рейчел Аллавена из Квинслендского университета – у нее было разрешение на подобные эксперименты. Битва с бюрократией заняла 3 месяца, в ходе которых Конингем составлял 100-страничное этическое заявление.

Пока терапии поддалась лишь одна опухоль, которая уменьшилась на 75% – вторая не ответила. Но Роузи стало лучше, а Конингем выиграл время для дальнейших экспериментов. Держим за них кулаки.

Не менее важно в этой истории, что прямо на наших глазах, возможно, зарождается Citizen Science 2.0. Ранее гражданской наукой называли волонтеров без специального образования, которые являются руками, глазами и ушами ученых – наблюдают за миграцией птиц, ищут аномалии на картах звездного неба и т. д.

Но случай Роузи совершенно иной – не будучи биологом, Конингем направлял ИИ и добился нужных результатов. При этом Конингем – не "обычный человек с чатботом". За его плечами 17 лет в машинном обучении. ИИ не заменил экспертизу – он позволил перенести ее из одной области в другую. И какие еще случаи переноса мы увидим – представить пока сложно.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.
🔥16076👍30👏6😁1
Сложно выбрать ИИ?..

Это вы еще не знаете, как мне сложно вам что-то советовать. За последнюю неделю сразу несколько человек написали мне с вопросом – а что там с GenSpark? Ты хвалил его буквально три месяца назад, больше не пользуешься?

Я им действительно больше не пользуюсь, но все еще считаю одним из лучших агрегаторов нейросетей. Проблема в другом: ИИ развивается настолько быстро, что рынок постоянно переворачивается с ног на голову. Я в последнее время увлекся агентами вроде OpenClaw и Claude Code – и здесь польза от GenSpark нулевая. Но давайте попробую рассказать, где и какой сервис может быть полезен сейчас.

OpenClaw и его клоны (NanoBot, NanoClaw и др.)

Здесь модель должна хорошо кодить, в том числе в агентских средах, следовать инструкциям и быть устойчивой ко взломам. Лучший вариант – Claude Opus 4.6, подключенный по Oauth через Claude Code. Но OpenClaw мощно расходует токены, а лимиты Anthropic на 20-долларовой подписке Pro могут сгореть очень быстро. Если вы новичок и не готовы платить 125 долларов за Max, то можно попробовать начать с Claude Sonnet 4.6, а когда поймете принцип работы, то попросить агента создать себе роутер, где для сложных задач вызывается Opus.

Также подойдет GPT-5.4, подключенная по Oauth через Codex. Здесь 20-долларовой подписки ChatGPT Plus хватит для обычной работы, причем лимиты Codex не расходуют лимиты чат-бота в обычном интерфейсе. У меня OpenClaw на GPT-5.4 работал не хуже чем на Opus, а основная претензия – стиль ответов. Такое впечатление, что модель Anthropic взрослее на 10 лет.

Кодинг-агенты

Claude Code – золотой стандарт. У него больше всего функций, есть куча скиллов, MCP, написаны гайды, инструкции и так далее. И вновь проблема в том, что лимиты на подписке Pro улетают быстро. Можно исправить используя Opus 4.6 для планирования проекта и проверки результата, а Sonnet 4.6 – для написания кода.

Codex на GPT-5.4 – 20-долларовой подписки хватит на несколько проектов в неделю. Кодит не хуже Опуса, но проигрывает по визуалу – интерфейсам, диаграммам и проч. По функционалу не сильно уступает, а где-то и вовсе впереди – например, есть компьютерное зрение.

Чат-боты

Коротко и емко:

ChatGPT в режиме Thinking – лучший поиск, мало галлюцинаций, хорошее компьютерное зрение. Но отвратно пишет на русском и долго отвечает.

Claude – трудяга. Соберет отличную презентацию, найдет полезные инсайты в цифрах, накидает идей. Хорошо пишет на русском. Но строгие лимиты – придется учиться жонглировать между Opus и Sonnet в обычном и рассуждающем режимах.

Gemini 3 Thinking и 3.1 Pro – также хорошо пишет на русском, плюс отличное компьютерное зрение (может разобрать по деталям даже 20-минутное видео), классный рассказчик, в целом очень приятная. Но есть манера сильно преувеличивать некоторые вещи – такие изощренные галлюцинации. Ну и достучаться до Gemini из России сложнее, чем до других ИИ.

Grok 4.20 – пользуюсь только поиском по X. Здесь он лучший.

Агрегаторы

GenSpark – лучший вариант попробовать максимум моделей в одной подписке. Есть GPT, Gemini, Claude и Grok, множество рисовалок и моделей генерации видео. Но когда выберете понравившуюся модель, то лучше уходить в отдельную подписку – та же GPT-5.4 в ChatGPT ищет лучше, чем в GenSpark.

Perplexity – набор моделей неплохой, но все-таки скромнее: например, в GenSpark есть Claude Opus, а здесь только Sonnet. Зато сервис отлично подходит для поиска – почти как ChatGPT.

Рисовалки

Я чаще пользуюсь GPT Image 1.5 – она рисует “красиво”. Nano Banana 2 реалистичнее и отлично справляется с инфографикой – но картинки получаются скучнее.

Китайские ИИ

Здесь мало могу помочь – моделей много, а времени не хватает. Но из-за бесплатности и свободного доступа китайские модели можно попробовать самому. Держите список, которые заслуживают внимания: DeepSeek V3.2, Kimi K2.5, GLM-5, Qwen3.5. У китайцев бесплатен и рассуждающий режим – не забывайте включать на сложных задачах.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.
472👍58🔥10😁4
Будет непросто, но весело (надеюсь)

Если вы в последнее время живете в режиме “что вообще вокруг происходит?”, то подкину топлива, пересказав главное из свежего выступления Сэма Альтмана на BlackRock Infrastructure Summit.

Вообще, выступления людей типа Альтмана стоит слушать осторожно – они активно продают тему ИИ инвесторам, поэтому иногда “галлюцинируют” красоты ради. Но они же, тем не менее, находятся на переднем краю ИИ-прогресса и видят то, что мы увидим в будущем. Постараюсь отделить действительно интересные штуки от “галлюцинаций”.

Порог экономической полезности пройден

Альтман уверен, что несколько месяцев назад ИИ окончательно превратился из необычного помощника в полноценный рабочий инструмент. Больше всего это заметно в кодинге, но происходит и во многих других интеллектуальных областях, вплоть до науки.

Альтман говорит такое не впервые, но в этот раз его слова подтверждают цифры: ожидаемая годовая выручка двух главных на данный момент конкурентов рынка, Anthropic и OpenAI, растет быстрее прогнозов. Обе компании сильно зависят от инвестиций, но тренд виден: все больше бизнес- и частных клиентов воспринимают ИИ как полезный инструмент и готовы платить за него деньги.

Интеллект как коммунальная услуга

Альтман видит будущее, в котором ежемесячный платеж за ИИ так же естественен, как платеж за воду или электричество – хотя я бы скорее сравнивал с оплатой интернета или мобильника. С этой целью компания вкладывается в дата-центры – ИИ должен быть доступным.

И если сейчас это чат-боты и первые, еще неуклюжие, агенты, то в будущем в OpenAI видят ИИ как персонального партнера. Что-то вроде “старшего сотрудника”, которому мы доверяем разные задачи: от рабочих тасков до ведения личных дел. Он будет работать непрерывно, и чем больше накопит контекста о пользователе – тем эффективнее станет.

Стартапы без сотрудников

Альтман приводит пример Индии, где бизнес часто предпочитает не нанимать новых сотрудников, а вкладываться в ИИ-ресурсы. Я уверен, что подобное происходит и в других странах, в том числе, и у нас. Просто это пока сложно посчитать. Если наем и увольнение сотрудников – это понятные цифры, то расходы на ИИ поддаются подсчету сложнее. Тем более, что один из текущих сотрудников может купить ИИ-подписку и использовать ее для повышения своей эффективности.

Что делать в таких условиях? Альтман говорит о буме стартапов без сотрудников и я согласен с ним. Малый бизнес всегда был локомотивом экономики и одним из главных работодателей – и на самом деле, как только он научится пользоваться ИИ, то сможет действовать еще эффективнее, часто обходя неповоротливых гигантов.

Следующие несколько лет будут “болезненными” и ни у кого нет точного ответа – что делать

Альтман верит, что ИИ в конечном счете принесет человечеству блага, однако путь к ним может быть “болезненным”. И дело даже не в локальных страшилках вроде “ИИ заберет вашу работу”, а в том, что придется очень быстро перестраивать общество, искать новые механизмы и ценности.

Традиционный капитализм построен на балансе труда и капитала: работник нужен, потому что без него ничего не произведешь. Но если GPU (и роботы) будут справляться с работой лучше человека — этот баланс ломается. Как перестроить общество под управление изобилием вместо дефицита — совершенно новая задача, и, по словам Альтмана, ответа на нее пока ни у кого нет.

Еще один интересный пример – экономические показатели. Если в результате бума продуктивности товары и услуги подешевеют, то ВВП начнет не расти, а падать – и это не будет чем-то плохим, просто человечеству придется переосмыслить способы измерения качества жизни.

Альтман считает, что дебаты о том, как устроить мир, в какой-то момент будут очень интенсивными и некомфортными. По его словам, ни у кого сейчас нет твердого решения – но, как мне кажется, именно это открывает возможности для самых разных людей.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.
1👍8046🔥22😁7
Как говорить с ИИ, чтобы он вас понял

Конец недели – время для полезного лонгрида в подписке на Boosty. В этот раз поговорим о промптах. Я в последнее время часто читаю мнение, что промпт-инжиниринг в классическом виде умирает. Мы все реже будем “программировать” модели с помощью текстов и все больше – работать с ИИ-агентами, которые сами разберут задачу на кусочки, запросят у пользователя нужный контекст, все сделают, а затем еще и перепроверят себя.

Про агентов верно, но они не убирают самый важный навык – навык общения с ИИ. Когда ты правильно пишешь промпты, то этот навык прививается сам собой – я, например, замечаю, как даже в обычном диалоге использую те или иные приемы, которыми ранее пользовался в промптинге. Да и “классические” промпты пока рано сдавать в утиль – например, тому же агенту проще поставить задачу именно таким образом.

Я долго изучал промптинг как на личном опыте, так и чужих примерах и исследованиях. Узнал, какие подходы существуют, какие приемы работают, а какие вредны. А теперь собрал свои знания в одном плотном тексте.

Читать на Boosty

(Друзья, Boosty поддерживает оплату с карт российских и зарубежных банков. Если у вас трудности с оплатой, то:

— отключите VPN
— убедитесь, что оплачиваете через сайт, а не мобильное приложение)
1👍29😁2511🔥7👏3
Переделка интерфейсов

Постепенно появляются намеки на то, как изменится наша работа с ИИ в ближайшие месяцы и годы.

Начнем с управления агентами через мессенджеры. Уже можно точно сказать, что пресловутый OpenClaw – это не хайп на несколько недель, а популярный рабочий инструмент, пусть и сырой. На базе OpenClaw люди разворачивают персональных и бизнес-ассистентов, автоматизируют процессы.

В Китае OpenClaw продвигается ведущими ИИ-компаниями: они бесплатно устанавливают агента и обучают им пользоваться, дарят API-кредиты и прочие бонусы. Тут простая бизнес-логика: агенты расходуют больше токенов, чем чат-боты, поэтому “подсадив” пользователей сейчас, можно круто заработать на них в будущем.

Количество вариаций на тему также растет. NVIDIA выпустила NemoClaw – по-сути, расширение OpenClaw, которое повышает его безопасность до уровня, достаточного для бизнес-клиентов. Штука интересная: встроено множество дополнительных мер безопасности, плюс чувствительные задачи можно передать локальной модели Nemotron, чтобы данные не утекали наружу. Интерec NVIDIA простой: для запуска потребуются RTX-видеокарты и даже полупрофессиональные ИИ-компьютеры DGX Station.

Anthropic на днях запустили Channels для Claude Code – теперь запущенной сессией можно управлять удаленно, с помощью Telegram и Discord. Фактически это OpenClaw на минималках: нет глубокой памяти и разнообразного функционала, но зато простая установка и лучше безопасность. Опять же, Claude Code программирует так круто, что при необходимости сам напишет большинство нужных вам функций.

Также чуть раньше появился режим Dispatch для Claude Cowork – напомню, Cowork работает с папкой или папками на вашем ПК, а Dispatch добавляет слой удаленного управления через мобильную версию. Перспективы такого подхода оценивать не буду, так как мне Cowork банально не понравился – в текущем виде он очень сырой и не дает чего-то нового в сравнении с Claude Code.

Зато я много времени работаю с OpenClaw, постепенно перетащив в него значительную часть личных и рабочих задач. В чат-боте осталась работа с большими текстами (их через телегу гонять не удобно) и простыми вопросами, а Claude Code запускаю, когда хочу покодить.

OpenClaw у меня запущен на арендованном виртуальном сервере, там же хранятся нужные документы, результаты анализа, workflow для разных задач, прототипы сайтов и программ – удобно, что все это доступно сразу через Telegram. Это не так дорого – VPS стоит до тысячи рублей в месяц, а на нем можно развернуть не только OpenClaw, но и другие полезные штуки.

Минус только в том, что Telegram достаточно ограничен по выводу информации: не более 4000 знаков в сообщении, не пропускает таблицы и сложное форматирование. Я обучил OpenClaw для сложных ответов верстать веб-страницу и выкладывать на сервер – получается быстро и почти без ошибок.

Но это все равно костыль, поэтому интересен подход, с которым, по слухам, сейчас экспериментирует OpenAI. Они хотят объединить ChatGPT, Codex и Atlas, получив, по сути, супер-приложение на их базе.

У каждого из трех приложений есть свои сильные стороны, которые можно использовать. ChatGPT – самое массовое ИИ-приложение в мире, его интерфейс понятен и привычен пользователям. Из Atlas можно забрать веб-слой, чтобы просматривать сайты напрямую, с ИИ-ассистентом, готовым прийти на помощь.

Наконец, Codex – база для агентских сценариев. GPT-5.4 в нем умеет работать с долгими задачами, разбивая их на куски, пробуя разные подходы и не забывая про самопроверку. Как и Claude Code, Codex обычно воспринимают как “штуку для программирования”, но на деле это универсальный инструмент, который годится для самых разных задач. А начать его использовать мешает скорее интерфейс командной строки (уже есть и десктоп-приложение) – если его заменить на что-то похожее на ChatGPT, то порог вхождения будет куда ниже.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.
5🔥4030👍28👏2😁2
Большой дом

41-летний программист из Пекина Ма Жуйпэн три месяца назад уволился с работы, чтобы наконец-то начать свое дело. Но это не обычный бизнес: без офиса, склада, магазинов и сотрудников. Все, что есть у Ма – квартира в Пекине и три компьютера с установленными OpenClaw, Claude Code и Figma. Своего ИИ-агента Ма назвал “Большой дом” – в честь мечты заработать денег на покупку отдельного дома.

Пока что Ма заработал ноль юаней.

Выступая на BlackRock Infrastructure Summit, глава OpenAI Сэм Альтман рассказывал о стартапах без сотрудников, в которых люди “нанимают” для ведения бизнеса ИИ-агентов. Глава Anthropic Дарио Амодеи начал говорить о подобных микробизнесах еще год назад.

Но пока на Западе рассуждают, в Китае делают. Несколько недель как страну накрыл настоящий бум OpenClaw – по оценкам аналитиков, использование этого ИИ-агента в Поднебесной почти в два раза превышает американское.

IT-гиганты вроде Tencent, Zhipu AI и ByteDance выпускают свои версии OpenClaw, адаптированные под местные мессенджеры и ИИ-модели, и активно обучают население их использованию – в один из дней около 1000 человек выстроились в очередь в штаб-квартиру Tencent для бесплатной установки и консультации по агенту. Аналогичные мероприятия проводил Baidu в Пекине — приходили студенты, пенсионеры, офисные работники.

Бум OpenClaw накладывается на государственную политику по развитию OPC – one person company или бизнесов одного человека. Это логично, ведь ИИ-агенты выглядят идеальной дешевой рабочей силой – достаточно платить за простенький компьютер/сервер и токены.

Китайские провинции соревнуются во внедрении программ по поддержке OPC. Власти Шэньчжэня написали политику поддержки OpenClaw + OPC всего за три недели. В ней: 30% субсидия на покупку компьютера, три месяца бесплатных вычислительных мощностей, доступ к обезличенным датасетам, 18 месяцев скидки на офис и два месяца бесплатного жилья при переезде.

Другие провинции не отстают. Набор везде похожий: субсидии на вычислительные мощности, компенсация аренды офиса и жилья, беззалоговые кредиты и т. д. В Ухане даже обещают покрыть часть убытков в случае дефолта.

Интерес государства можно понять. На волне ИИ-бума Китай вложил в строительство дата-центров десятки миллиардов долларов, далеко не всегда грамотно планируя спрос – в итоге многие объекты остались незагруженными. ИИ-агент вроде OpenClaw тратит примерно в 10 раз больше токенов, чем привычные чат-боты – поначалу они компенсируются государством, но затем платить придется самим предпринимателям.

Малый бизнес традиционно считается одним из главных работодателей. Власти ожидают, что OPC привлекут молодежь за счет низкого порога входа. Это может помочь решить проблему молодежной безработицы в стране, которая превышает 17%.

Но есть и скептики. Пример Ма Жуйпэна, ничего не заработавшего с помощью ИИ-агента, не единственный – пока вообще никто не знает, как вести подобный бизнес. Самый стабильный доход у тех, кто устанавливает и настраивает OpenClaw – цена услуги начинается от 70 долларов.

Шансы на то, что вслед за волной хайпа вокруг OpenClaw-бизнесов начнется волна связанных с ними банкротств – велики. Но это типичное правило бизнеса: там, где десять прогорят – одиннадцатый построит что-то успешное, возможно, уже не на одного человека. Экономика страны в любом случае останется в плюсе – благодаря резко возросшему спросу на токены.

Обычно в конце подобных постов я пытаюсь примерить описанную историю на нашу действительность. Но сегодня получается с трудом. Telegram, Discord и прочие мессенджеры, популярные для работы с OpenClaw – у нас замедляются или заблокированы полностью. Лучшие агентские модели вроде Opus 4.6 и GPT-5.4 – заблокированы их разработчиками. Приведет ли OpenClaw-бум к рождению новой индустрии или к провалу – наблюдать, возможно, придется с обочины.

Хотя мы с вами прорвемся, я уверен.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там много интересного!
3👍9240🔥21😁5👏4
Можно ли создать бенчмарк на AGI?

25 марта выходит ARC-AGI-3 от ARC Foundation – третья версия одного из самых интересных ИИ-бенчмарков. Упоминание AGI в названии наводит на мысль, что бенчмарк замеряет соответствие модели общему искусственному интеллекту – но все сложнее. Создатель ARC-AGI Франсуа Шолле называет бенчмарки скорее ориентиром на AGI – соревнуясь в них, разработчики поневоле будут тренировать свои модели одному из самых важных человеческих навыков. А именно – обобщению и рассуждению.

ИИ давно стали мастерами ответов на вопросы. И это неудивительно – ведь в их обучающую выборку помещены почти все человеческие тексты, огромное количество примеров кода, математических решений и так далее. Современная модель даст рецепт приготовления борща, решит домашку по математике, переведет текст на английский и напишет не сложную программу.

Но как только ИИ сталкивается с проблемой, которой нет в его обучающей выборке – вероятность ошибки драматически растет. Это пока человеческое умение – разобраться в задаче, найти похожие примеры и понять, как решать. И это тестируют бенчмарки ARC-AGI.

Первые две версии бенча похожи. ARC-AGI-1 вышел в 2019 году и насчитывал 800 задач-паззлов на основе сеток с цветными клетками. Модели сначала показывали сетку с условием, а затем сетку с решенной задачей – и так от 2 до 5 раз. На основе решенных задач ИИ должен был вывести правило, а затем уже самостоятельно решить по этому правилу новую задачу.

Для человека задачи ARC-AGI-1 были предельно простыми – многие решались за считанные секунды. А вот для ИИ долгие годы этот бенчмарк был практически неприступен – например, GPT-4o набирала в 2024 году около 5%.

Прорыв случился с выходом рассуждающих моделей – в конце 2024 года предварительная версия OpenAI o3 показала 75.7% при расходе токенов на одну задачу в 26 долларов. Тогда же бенчмарк попробовали взять грубой силой, выделив модели максимум ресурсов на размышления – результат вырос до 87,5%, но расход токенов подскочил до умопомрачительной цифры в 4 560 долларов! Сейчас бенчмарк практически “пройден”: Gemini 3.1 Pro берет на нем 98% при цене 0,5 доллара за задачу.

В марте 2025 года вышел ARC-AGI-2. Базовые правила были прежними, но задачи стали сложнее и разнообразнее. Если задачи ARC-AGI-1 человек решал за несколько секунд, то над ARC-AGI-2 приходится подумать – среднее время решения составило 2,7 минуты.

ARC-AGI-2 продержался чуть более 6 месяцев. Та же самая OpenAI o3 набирала в нем 2-3% в зависимости от длительности рассуждений. Но уже в ноябре Gemini 3 Pro показала 31%, а дальше бенчмарк “посыпался”: Opus 4.5 – 37,6%, GPT-5.2 Pro – 54,2%, Opus 4.6 – 68,8%, Gemini 3.1 Deep Think – 84,8%. Надо добавить, что средний человеческий уровень в ARC-AGI-2 равняется 60%.

По словам Шолле, в поведении моделей видно, что разработчики постепенно понимали, как натаскивать их на прохождение бенчмарка – сначала ARC-AGI-1, а затем и ARC-AGI-2. Но в этом нет ничего осудительного: получается, что как человеку нужно какое-то время на освоение навыка, так и ИИ – на дообучение под него.

Интересно, что сразу несколько стартапов и энтузиастов разрабатывали под ARC-AGI-2 альтернативные оболочки: в основе там лежали привычные модели вроде Grok 4, но менялся подход к проблеме – ИИ запускал много разных вариантов решения, а затем отбирал лучшие и “эволюционировал” их. В какой-то момент такие стартапы даже вырвались вперед, а эволюционную концепцию в будущем можно адаптировать под другие задачи.

ARC-AGI-3 не просто усложнит задачи – ИИ самому надо будет управлять интерфейсом, перемещать предметы, нажимать на кнопки. Фактически, это будет первый такой бенчмарк для ИИ-агентов. Посмотрим, как быстро он сдастся, но Шолле уже говорит, что у него есть идеи на 4-ю, 5-ю и 6-ю версии бенчмарка. Можете попробовать и сами – по ссылке есть три задачи.

Кстати, на Boosty у меня есть обзор бенчмарков ИИ – на какие советую смотреть при выборе и почему. Так что подписывайтесь на Boosty, там все больше интересного!
3🔥32👍1912👏3😁1
AGI уже здесь – но никто не знает, что это значит

В последние дни сразу две крупных ИИ-персоны вновь подняли тему пресловутого AGI. 22 марта в подкасте Лекса Фридмана глава NVIDIA Дженсен Хуанг заявил, что AGI в каком-то виде уже здесь. Но с оговоркой.

Фридман дал свое определение AGI – это система, способная создать бизнес ценой в 1 млрд долларов и больше, а затем управлять им. Хуанг с иронией ответил, что да – уже сейчас Claude Code может “повезти” собрать вирусное приложение, которое заработает этот миллиард. Но даже 100 тысяч агентов не смогут управлять компанией вроде NVIDIA — шансы, по его словам, нулевые. И есть куда расти.

Позже суеты добавил Сэм Альтман, который взял за привычку переворачивать OpenAI с ног на голову каждые несколько месяцев. OpenAI закрывает Sora — генератор видео, запущенный полгода назад, — и перебрасывает вычисления на новую модель Spud. По словам Альтмана, она сможет "реально ускорить экономику".

Наконец, внутри компании появился отдел AGI Deployment – запуска AGI. Во главе стоит Фиджи Симо, которая сейчас отвечает за продуктовое направление, вроде ChatGPT. Гипотезы могут быть разными, но выглядит это так, будто в OpenAI считают Spud и последующие версии близкими к AGI и начинают готовить оболочку для этих моделей.

Интересно, что задолго до Хуанга и Альтмана про AGI заговорил Али Годси – CEO Databricks, компании-платформы для корпоративных данных и ИИ с оценкой в $134 млрд.

Еще осенью 2025-го Годси сказал, что AGI уже здесь – просто мы его не замечаем. В качестве подтверждения он привел в пример то, как 20 лет назад обсуждал AGI с коллегами в лаборатории как систему, которая будет свободно разговаривать с пользователем, рассуждать, находить паттерны данных. Собственно – все то, что современные модели умеют уже более года.

Дальше Годси как в воду глядел: по его словам, даже если “заморозить” модели, существовавшие на осень 2025 года, то на их базе можно делать ИИ-агентов, полезных для бизнеса. Собственно, это и стало происходить к концу года с ростом популярности Claude Code, Codex и OpenClaw.

В индустрии есть и другие мнения. Хассабис регулярно утверждает, что до достижения AGI нужны минимум прорыва – непрерывное обучение и долгосрочное планирование. Ян Лекун, один из отцов машинного обучения, вообще считает, что текстовые модели не достигнут AGI, так как они не понимают правил реального мира.

Но вот что интересно. В последнее время ведущие студии научились обновлять свои модели примерно раз в два месяца. Конечно, надо потратить еще какое-то время на подготовку обучающих данных, но уже сейчас можно говорить о том, что заложить какой-то нужный навык в ИИ можно за несколько месяцев. А это не дольше времени, которое профессиональный сотрудник тратит на то, чтобы освоиться на новом рабочем месте.

Впрочем, агенты вроде Claude Code уже обходят это ограничение – они учатся без переобучения модели: пишут себе workflow, дописывают код, сохраняют контекст. Не полноценное непрерывное обучение – но для бизнес-задач хватает. Да и с пониманием мира все становится лучше – компьютерное зрение у последних версий Gemini и GPT подтянули очень круто.

Сейчас каждый вкладывает в AGI то, что ему удобно. Хуангу важно продавать GPU, Альтману – привлекать инвестиции и искать источники прибыли. Лекуну – получать деньги на свои исследования. Сам AGI распался на кучу интеллектуальных задач: одни ИИ уже хорошо выполняет, другие – скоро научится.

В какой-то момент в будущем историки ИИ оглянутся назад – и назовут дату, от которой ведется отсчет AGI. Мой прогноз: или осень 2024 года (первые рассуждающие модели), или осень 2025-го (Opus 4.5 и GPT-5.2, ставшие основой для действительно мощных ИИ-агентов).

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
1🔥60👍4027😁5👏2
Что не так с ARC-AGI-3?

Недавно я рассказывал про бенчмарки на абстрактное мышление ARC-AGI. Теперь же вышел ARC-AGI-3, который вызвал множество вопросов – и к устройству самого бенчмарка, и к тому, правильно ли вообще измеряется эффективность ИИ.

Напомню: ARC-AGI замеряют способность ИИ обобщать знания для решения новых задач. В первых двух версиях модели видели пары “условие – решение” на цветных сетках, выводили правило и применяли его к новой головоломке. Оба бенчмарка сейчас можно считать пройденными.

ARC-AGI-3 стал заметно сложнее. Он состоит из интерактивных головоломок: игровое поле с разными фигурами, управление с помощью стрелок и не всегда понятная цель. ИИ дают возможность “видеть” поле и нажимать кнопки – и все. Дальше агент должен сам разобраться в управлении, догадаться о цели и решить задачу.

Результаты на первый взгляд обескураживают: люди – 100%, лучший ИИ (Gemini 3.1 Pro) – 0,37%. Но прежде чем отодвигать планку AGI, давайте посмотрим, как именно оценивают модели.

Организаторы отобрали 486 участников в Сан-Франциско, которые тестировали задачи бенчмарка. В финальный набор задача попадала только в случае, если ее с первой попытки проходили минимум 2 из 10 тестеров – то есть, в ARC-AGI-3 в принципе нет задач, которые решал бы ИИ, но не решал человек.

Далее в ARC Prize вывели метрику RHAE, которая считает эффективность ИИ в действиях относительно второго лучшего человеческого результата. Формула квадратичная: если человек прошел уровень за 10 действий, а ИИ за 100 — результат не 10%, а (10/100)² = 1%. Потолок 1.0 — модель не может набрать выше человека. Поздние уровни весят больше ранних.

Поэтому 0,37% — это не доля решенных задач, а эффективность относительно человека. Сколько именно уровней проходят модели, авторы не раскрывают.

Но самая большая проблема бенчмарка – отсутствие даже элементарной агентской обвязки. Те же Claude Code, Codex и OpenClaw для выполнения задачи пишут код, а полученные знания сохраняют в файлах типа Claude.md. Здесь каждую игру ИИ начинает с нуля с минимумом инструментов.

Создатель бенчмарка Франсуа Шолле объясняет это тем, что замеряет “сырой интеллект”: людей тоже сажали перед незнакомой игрой без подпорок. Но если поиграть самому, видно: в первых задачах усваиваешь принципы, которые работают и позже. А модель каждый раз стартует с нуля — сохранять знания между играми ей не разрешено. Плюс визуал быстро забивает контекстное окно — к концу раунда модель может забывать то, что узнала в начале.

Шолле верит, что прохождение ARC-AGI-3 станет вехой в развитии ИИ – как это было с предыдущими версиями. ARC-AGI-1 пал при появлении рассуждающих моделей, ARC-AGI-2 – на фоне прогресса агентских систем. ARC-AGI-3, по его логике, падёт тогда, когда появится что-то принципиально новое – например, непрерывное обучение, при котором модель обновляет свои веса прямо в процессе работы.

Но вот в чем ирония: современные агенты уже учатся без изменения весов. Claude Code пишет себе workflow, сохраняет контекст, дописывает код, который использует в будущем. Это не полноценное непрерывное обучение – но для бизнес-задач его хватает. И именно такой подход ARC-AGI-3 запрещает на официальном лидерборде.

На мой взгляд, ARC-AGI-3 замеряет реальную вещь – способность разобраться в незнакомом с нуля. Но способ замера не отражает то, как ИИ сегодня используется. Поэтому в ближайшее время интереснее следить за двумя другими площадками. Community leaderboard – где любой может запустить свою агентскую систему с любой обвязкой. И Kaggle-соревнование с призовым фондом $2 млн – где решения обязаны быть open source. Правда, пока и там негусто: через 12 часов после старта лучший результат на Kaggle не дотягивает даже до шаблонного решения.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
4👍5218🔥13😁3👏2
Не спрашивайте ИИ – заставьте его думать

Пока одни хоронят промпты, я продолжаю разбирать эту тему в подписке на Boosty. Собственно, вот новый лонгрид:

Как заставить ИИ думать глубже: 8 техник сильного промптинга

Действительно, агентские системы сейчас быстро вытесняют чат-боты. Но умение правильно писать запросы нужно и в работе с ними – иначе вы потратите больше времени, а результат будет хуже.

Кроме того, промпты – это универсальный язык обмена идеями. В основу сегодняшнего лонгрида я положил свои любимые техники, которыми пользуюсь месяцами. Но когда закончил работу, то понял – чего-то не хватает.

Я попросил Opus 4.6 и GPT-5.4 предложить, чем еще дополнить подборку. Отобрал самые интересные варианты, начал проверять и… вылетел из жизни на несколько часов – настолько свежими и интересными были многие подходы. Поделюсь, например, least-to-most (декомпозиция):

У меня есть канал в Telegram на 19 тысяч подписчиков, вдобавок к нему я хочу запустить платную подписку на Boosty. Разбери эту задачу по принципу least-to-most, поясни, что от меня требуется на каждом этапе и какие риски могут быть.


Другие классные промпты читайте в лонгриде. А в подписке уже накопилось 5 текстов, полезных любому, кто работает с ИИ.

Самое время присоединиться!
1🔥4820👍14😁14