сбежавшая нейросеть

Промпты для Nano Banana 2

Nano Banana 2 как-то прошла мимо моего внимания, а ведь это отличная рисовалка – быстрая, умная и доступная бесплатно в Google Flow. Google сегодня выкатила руководство по этой модели, в котором есть несколько полезных советов.

Используем веб-поиск

Когда речь идет о реальных объектах, то Nano Banana 2 не только опирается на свои обучающие данные, но и использует веб-поиск, чтобы посмотреть реальные фото объекта. В Google советуют добавлять в промт явное указание модели убедиться, что объекты, персонажи и ландшафт на изображении соответствуют реальным. Например:

Нарисуй дом-корабль на Тульской в Москве в аниме-стиле. Убедись, что архитектурные детали, окружающие здания и ландшафт соответствуют реальности.

Вот еще один интересный пример:

Нарисуй инфографику, как изменилось представление об облике велоцираптора со времени "Парка юрского периода" и по наши дни. Убедись, что информация на инфографике соответствует реальным научным представлениям. Убедись, что все надписи на инфографике выполнены на русском языке без ошибок.

Обратите внимание – я добавил в промпт инструкцию писать только на русском. В противном случае модель в некоторых местах срывается в белиберду.

Google Street View и другие приколы

Другое излюбленное развлечение в Nano Banana 2 – генерировать исторические события в современных интерфейсах.

Например, строительство Великой пирамиды в Гизе:

Сгенерируй гиперреалистичное изображение строительства Великой пирамиды в Гизе, около 2560 года до н.э., в стиле Google Maps Street View. Тысячи рабочих тянут каменные блоки по пандусам, пирамида наполовину построена. Интерфейс Google Maps, водяной знак "© Google –2560". Все лица размыты. Палящее солнце, пыль, высокий ISO.

Или Tinder-профиль Клеопатры:

Сгенерируй скриншот Tinder-профиля Клеопатры. Она изображена на фоне Александрийского маяка, золотые украшения, подведённые глаза (убедись, что выглядит как фото, а не рисованное изображение). Имя "Клеопатра, 28", био: "Царица. Люблю яхты по Нилу. Не пишите, если вы не минимум консул. 🐍". Интерфейс Tinder с кнопками лайка и дизлайка, расстояние "3 200 км". Соотношение сторон 9:16.

(Я смахнул влево – симпатичная, но 3 200 км как-то далековато)

Отмечу, что в рисовалках хороший результат редко получается с первого раза. В отличие от текста, у изображения намного больше опций: стиль, угол и расположение камеры, свет, погодные условия – поэтому на старте модель многое выбирает от себя. Я обычно начинаю с общего промпта, а затем дописываю конкретные инструкции.

Например, Клеопатру Nano Banana 2 упорно делала “рисованой” – просто потому, что таких изображений в ее обучающей подборке больше. Поэтому пришлось добавить в скобки, что должно выглядеть как фото.

Нестандартные соотношение сторон

Nano Banana 2 умеет рисовать с соотношениями сторон 4:1 и 8:1 (а также 1:4 и 1:8, если нужны вертикальные картинки). Такие соотношения хорошо подходят для комиксов – жаль только, что сами комиксы модель пока рисует с 5-10 попыток, чтобы получилось хоть что-то приличное.

В итоге взял достаточно простой вариант с кошкой в разных эпохах:

Создай горизонтальный комикс из 4 панелей (4:1). Один и тот же запрос "нарисуй кошку" — результат в разных эпохах: 1) Наскальный рисунок охрой 2) Египетская фреска с богиней Бастет 3) Ренессансная картина маслом, кошка в позе Моны Лизы 4) Промпт в нейросети — фотореалистичный кот в космосе. Все стили соответствуют эпохе.

Отмечу, что для иллюстрации текстов и постов я чаще использую GPT Image 1.5 – эта модель умеет “нарисовать красиво”. У всех версий Nano Banana изображения часто получаются будто с бесплатных фото-стоков, но при этом модели от Google впереди по точности следования промпту и интересному функционалу – как, например, использование поиска.

Ловите "сбежавшую нейросеть" в: Telegram / на парковке.

1❤67👍31🔥16😁3

10.8K views19:20

сбежавшая нейросеть

Каляки-маляки

Я сегодня почти дописал серьезный пост про то, сколько кода реально пишет ИИ, но потом пришла Anthropic и все испортила. В общем, встречаем новый функционал в чат-версии Claude – Visualizer. С его помощью Claude теперь прямо в диалоге может делать интерактивные визуализации – схемы, графики, таймлайны, разборы “как это работает” и так далее.

Это не еще одна рисовалка по типу Nano Banana 2 или GPT Image 1.5 – Claude Visualiser пишет код в SVG и html, а затем выводит результат прямо в чате. Что-то похожее раньше можно было делать с помощью режима Artifacts, но артефакты открываются в дополнительной боковой панели, что не совсем удобно. Куда круче, когда подобный интерактив встраивается прямо в чат, дополняя текст.

Первое, что пришло в голову – попросить Claude нарисовать схему, как со временем менялось представление ученых об облике Ти-рекса (я люблю на похожих промптах тестировать классические рисовалки). Получилось… необычно. Но моя дочка оценила – сказала, что она тоже так умеет рисовать.

Но это скорее шутка, реальная область применения Visualiser – это интерактивные схемы, графики, диаграммы. Пока писал пост, Claude мне показал, как устроен дифференциал автомобиля, как бродит тесто и что происходит внутри эспрессо-машины.

Самый простой способ получить визуализацию – начать промпт с инструкции “Сделай визуализацию…”. Работает на всех тарифных планах, в том числе бесплатном, на моделях Opus 4.6 и Sonnet 4.6 (Haiku не стал пробовать), в быстром и рассуждающем режиме. Я пока не понял, может ли Claude сам по себе рисовать визуализации, когда посчитает, что это нужно – буду тестировать дальше.

Учитывайте, что навыки Claude в визуализации пусть и круто прокачали, но пока еще не довели до идеала – поэтому сложные ответы стоит воспринимать с определенной долей скепсиса. Например, интерактивную схему, как развивалось метро Москвы по десятилетиям, Claude нарисовал очень примерно – все ветки на местах, но вот их положение совсем примерно. А вот с аналогичным заданием для Ленинграда/Санкт-Петербурга нейронка справилась намного лучше.

Впрочем, ИИ в фронтенде сейчас улучшается с огромной скоростью, поэтому почти уверен – через 3-6 месяцев большинство визуализаций станут точными.

Сама по себе функция точно станет популярной. Современными ИИ давно уже тесно в формате чат-бота, поэтому все разработчики экспериментируют с добавлением визуала в ответы: это могут быть как картинки, найденные в сети или сгенерированные в Nano Banana, так и подобные визуализации – по сути, мини-программы, запускаемые прямо в чате с целью помочь вам понять информацию.

В более отдаленном будущем мы наверняка придем к тому, что у ИИ будет нечто вроде интерактивного “рабочего стола”, на котором он генерирует максимально подходящий для запроса ответ. Где-то это будет текст, где-то графика, где-то видео, а где-то – человекоподобный аватар для беседы.

Ловите "сбежавшую нейросеть" в: Telegram / на парковке.

3👍60❤30😁15🔥10

11.6K views17:48

сбежавшая нейросеть

На какие бенчмарки стоит смотреть, выбирая ИИ?

Пятница, а значит на платном канале в Boosty вышел очередной лонгрид – в нем я разбираю бенчмарки. Когда выходит новая модель, то первое, на что мы бросаемся смотреть – это на циферки в таблице. Где главный прорыв, где топчется на месте, а где – откат назад.

Но меряться процентами – это одно, а совсем другое – использовать результаты бенчмарков для выбора ИИ. Некоторые уже не актуальны, другие заточены под сложные научные задачи, в то время как пользователю нужна помощь в написании заголовков для блога и разборе домашки ребенка.

В тексте я подобрал именно бенчмарки, на которые стоит смотреть всем нам – офисным работягам, юристам, продакт менеджерам, редакторам, любителям поболтать с ИИ, навайбкодить проект за пару вечеров, выполнить сложный поиск в интернете и нагрузить нетривиальную задачу на OpenClaw.

Плюс в конце бонусом небольшой рассказ про ARC-AGI и FrontierMath – за этими двумя бенчмарками я советую следить в плане “общего прогресса” ИИ и достижения пресловутого AGI.

В общем, подписывайтесь на Boosty: новые лонгриды выходят раз в неделю, а глобальный план – собрать из них небольшой курс по ИИ, который будет полезен и новичкам, и опытным пользователям.

🔥26😁8👍6❤5👏1

10.8K views17:28

сбежавшая нейросеть

Без ИИ код не пишу!

10 марта 2025 года Дарио Амодеи дал знаменитый прогноз – “через 3-6 месяцев 90% кода будет писать ИИ, а через год – весь код вообще”. Очевидно, что это была маркетинговая фраза, от которой сам Амодеи затем изящно отскочил – осенью прошлого года он заявил, что 70-90% кода в Anthropic и ряде дружественных компаний действительно пишутся ИИ. Значит, он прав, а если кто-то не кодит с помощью ИИ – это это его проблемы.

Но что же реально происходит с ИИ-кодом за пределами Anthropic? Я копнул материалы и столкнулся с классической проблемой исследований на тему ИИ – они устаревают быстрее, чем успевают выйти. Исследование нужно спроектировать, набрать основную и контрольную группы, изучать их какое-то время, затем собрать и обработать материалы, пройти независимое рецензирование… в общем, теперь вы понимаете, когда в серьезной бумаге от какого-нибудь Оксфорда сравнивают GPT-4o и Gemini 1.5.

Но одна интересная находка все-таки есть. В феврале-июне 2025 года METR набрали 16 опытных open source разработчиков. Разработчики предлагали задачи, а исследователи случайным образом решали – будет ли задача решаться с помощью ИИ или руками. Основным инструментом был Cursor с Claude 3.5/3.7. За участие платили $150 в час, что примерно на уровне зарплаты опытного инженера.

В начале эксперимента разработчики прогнозировали, что ИИ ускорит их на 24%. По итогам эксперимента они оценили ускорение от ИИ на 20%. Однако по замеру METR, скорость выполнения задачи с помощью ИИ…упала на 19%.

В августе 2025 года METR отобрали уже 57 разработчиков: 10 участников прошлого исследования и 47 новичков из проектов разной сложности. Из-за ограниченности бюджета ставку снизили до $50 в час – это заметно хуже реальных зарплат по рынку и, по словам организаторов, могло повлиять на результаты.

Вернее, на их отсутствие – второй этап просто провалился. Схема была прежней: разработчики предлагали задачи, система выбирала “ИИ/вручную”, а затем… разработчики массово отказывались от задач, которые надо делать без помощи ИИ. Вот одна яркая цитата:

Я избегаю задач, где ИИ закончит за 2 часа, а мне придется потратить 20.

Когда в METR обработали те данные, которые удалось собрать, стало ясно, что для участников первого эксперимента ускорение составило примерно 18%, а для новичков – 4%. Статистическая значимость на этих цифрах вышла в окно, но главный итог в другом – буквально за полгода опытные разработчики так привыкли использовать ИИ для своих задач, что уже просто не хотят кодить без его помощи. Вот еще цитата:

У меня голова взорвется от работы по-старому — это как пересечь город пешком, когда привык ездить на Uber.

В METR поделились и другим интересным наблюдением: оценивать эффективность стало сложнее еще потому, что многие разработчики, запустив агента кодить, в параллели брались за другую задачу. Это становится новой нормой для ИИ-кодинга – я писал про Джеффа Эммануэля, который оплачивает сразу 22 подписки Claude Max. Он кодит с помощью целой своры ИИ-агентов, делая 2000-3000 коммитов на GitHub в неделю. Подход Джеффа скорее исключение из правил, но запускать 2-3 агентов для работы над разными задачами способен, пожалуй, каждый.

В итоге в METR признали, что уверены в ускорении кодинга, но не могут доказать это на цифрах. Сейчас организация создает очередное исследование, но вряд ли и оно будет успешным – развитие ИИ-инструментов настолько резкое, что его, возможно, нереально измерить в цифрах.

А самое интересное, что кодинг тянет за собой всю остальную работу. У Claude Code, Codex и OpenClaw есть особенность, которую пока осознали не все – обладая продвинутыми навыками кода, эти агенты уже сейчас могут собрать вам инструмент под почти любую задачу. Так что Амодеи, возможно, и промахнулся с цифрами — но направление угадал точно.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.

🔥52👍37❤29👏2😁1

12K viewsedited 11:26

сбежавшая нейросеть

Спасти Роузи

Видели новость, которая пришла к нам будто бы со страниц доброго фантастического романа? В Австралии ML-специалист Пол Конингем с помощью ИИ и ряда лабораторных инструментов создал персонализированную мРНК-вакцину от рака для своей собаки Роузи. И добился пусть пока не исцеления, но заметного прогресса.

Как это вообще возможно? Ведь даже человеческие персонализированные мРНК-вакцины еще не выпущены в широкий оборот – самые перспективные из них проходят третью стадию клинических испытаний.

Любой рак – это всегда ошибка иммунной системы. Раковые клетки появляются в организме каждый день, но обычно с ними расправляется иммунитет. А вот если не справляется – настает время для страшного диагноза.

А еще рак – это мутация, а она у каждого индивидуальна. Не имея возможности попасть в цель, врачи десятилетиями били по площадям – удаляли пораженные органы, заливали организм токсичной химией и облучали радиацией.

Почему нельзя было бить точнее? Создание лекарств – это работа с массивами данных, обычно медленная и дорогая. С развитием машинного обучения все стало меняться: если еще десять лет назад определение структуры одного белка занимало до года и стоило сотни тысяч долларов, то в 2020 году легендарная модель DeepMind AlphaFold 2 с помощью машинного обучения вычислила структуры почти всех известных белков. Все они в открытом доступе.

ИИ используются и на других этапах создания лекарств, для перечисления которых не хватит поста. Но самое важное – теперь можно создавать не только “усредненные” препараты, но и “подгонять” их под пациента.

В случае с персонализированными мРНК-вакцинами врачи сравнивают ДНК здоровых тканей с ДНК опухоли и ищут в последней мутировавшие белки – неоантигены. Далее алгоритмы машинного обучения отбирают те, которые с наибольшей вероятностью вызывают иммунный ответ и создают на их базе вакцину. Если все сработало как надо (напомню, сейчас идут только клинические испытания), то иммунитет пациента начинает “видеть”, раковую опухоль – и принимает участие в ее уничтожении (обычно вакцины комбинируют с другими препаратами).

Таким же путем пошел и Пол Конингем с Роузи. Когда традиционное лечение не помогло, он обратился к ChatGPT с запросом, какие есть перспективные терапии рака – ИИ разобрал основные подходы, помог выбрать лучший и наметил дальнейшие шаги.

В первую очередь Пол секвенировал ДНК здоровых клеток и опухоли Роузи, отдав за это 3000 долларов. Для анализа ДНК Пол использовал все ту же AlphaFold – она сейчас доступна бесплатно для научных целей. Модель Google помогла ему подобрать индивидуальные “мишени” для вакцины.

Создать вакцину помог Палл Тордарсон, директор Института РНК при UNSW. А ввести препарат вызвалась Рейчел Аллавена из Квинслендского университета – у нее было разрешение на подобные эксперименты. Битва с бюрократией заняла 3 месяца, в ходе которых Конингем составлял 100-страничное этическое заявление.

Пока терапии поддалась лишь одна опухоль, которая уменьшилась на 75% – вторая не ответила. Но Роузи стало лучше, а Конингем выиграл время для дальнейших экспериментов. Держим за них кулаки.

Не менее важно в этой истории, что прямо на наших глазах, возможно, зарождается Citizen Science 2.0. Ранее гражданской наукой называли волонтеров без специального образования, которые являются руками, глазами и ушами ученых – наблюдают за миграцией птиц, ищут аномалии на картах звездного неба и т. д.

Но случай Роузи совершенно иной – не будучи биологом, Конингем направлял ИИ и добился нужных результатов. При этом Конингем – не "обычный человек с чатботом". За его плечами 17 лет в машинном обучении. ИИ не заменил экспертизу – он позволил перенести ее из одной области в другую. И какие еще случаи переноса мы увидим – представить пока сложно.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.

🔥160❤76👍30👏6😁1

11.4K viewsedited 17:02

сбежавшая нейросеть

Сложно выбрать ИИ?..

Это вы еще не знаете, как мне сложно вам что-то советовать. За последнюю неделю сразу несколько человек написали мне с вопросом – а что там с GenSpark? Ты хвалил его буквально три месяца назад, больше не пользуешься?

Я им действительно больше не пользуюсь, но все еще считаю одним из лучших агрегаторов нейросетей. Проблема в другом: ИИ развивается настолько быстро, что рынок постоянно переворачивается с ног на голову. Я в последнее время увлекся агентами вроде OpenClaw и Claude Code – и здесь польза от GenSpark нулевая. Но давайте попробую рассказать, где и какой сервис может быть полезен сейчас.

OpenClaw и его клоны (NanoBot, NanoClaw и др.)

Здесь модель должна хорошо кодить, в том числе в агентских средах, следовать инструкциям и быть устойчивой ко взломам. Лучший вариант – Claude Opus 4.6, подключенный по Oauth через Claude Code. Но OpenClaw мощно расходует токены, а лимиты Anthropic на 20-долларовой подписке Pro могут сгореть очень быстро. Если вы новичок и не готовы платить 125 долларов за Max, то можно попробовать начать с Claude Sonnet 4.6, а когда поймете принцип работы, то попросить агента создать себе роутер, где для сложных задач вызывается Opus.

Также подойдет GPT-5.4, подключенная по Oauth через Codex. Здесь 20-долларовой подписки ChatGPT Plus хватит для обычной работы, причем лимиты Codex не расходуют лимиты чат-бота в обычном интерфейсе. У меня OpenClaw на GPT-5.4 работал не хуже чем на Opus, а основная претензия – стиль ответов. Такое впечатление, что модель Anthropic взрослее на 10 лет.

Кодинг-агенты

Claude Code – золотой стандарт. У него больше всего функций, есть куча скиллов, MCP, написаны гайды, инструкции и так далее. И вновь проблема в том, что лимиты на подписке Pro улетают быстро. Можно исправить используя Opus 4.6 для планирования проекта и проверки результата, а Sonnet 4.6 – для написания кода.

Codex на GPT-5.4 – 20-долларовой подписки хватит на несколько проектов в неделю. Кодит не хуже Опуса, но проигрывает по визуалу – интерфейсам, диаграммам и проч. По функционалу не сильно уступает, а где-то и вовсе впереди – например, есть компьютерное зрение.

Чат-боты

Коротко и емко:

ChatGPT в режиме Thinking – лучший поиск, мало галлюцинаций, хорошее компьютерное зрение. Но отвратно пишет на русском и долго отвечает.

Claude – трудяга. Соберет отличную презентацию, найдет полезные инсайты в цифрах, накидает идей. Хорошо пишет на русском. Но строгие лимиты – придется учиться жонглировать между Opus и Sonnet в обычном и рассуждающем режимах.

Gemini 3 Thinking и 3.1 Pro – также хорошо пишет на русском, плюс отличное компьютерное зрение (может разобрать по деталям даже 20-минутное видео), классный рассказчик, в целом очень приятная. Но есть манера сильно преувеличивать некоторые вещи – такие изощренные галлюцинации. Ну и достучаться до Gemini из России сложнее, чем до других ИИ.

Grok 4.20 – пользуюсь только поиском по X. Здесь он лучший.

Агрегаторы

GenSpark – лучший вариант попробовать максимум моделей в одной подписке. Есть GPT, Gemini, Claude и Grok, множество рисовалок и моделей генерации видео. Но когда выберете понравившуюся модель, то лучше уходить в отдельную подписку – та же GPT-5.4 в ChatGPT ищет лучше, чем в GenSpark.

Perplexity – набор моделей неплохой, но все-таки скромнее: например, в GenSpark есть Claude Opus, а здесь только Sonnet. Зато сервис отлично подходит для поиска – почти как ChatGPT.

Рисовалки

Я чаще пользуюсь GPT Image 1.5 – она рисует “красиво”. Nano Banana 2 реалистичнее и отлично справляется с инфографикой – но картинки получаются скучнее.

Китайские ИИ

Здесь мало могу помочь – моделей много, а времени не хватает. Но из-за бесплатности и свободного доступа китайские модели можно попробовать самому. Держите список, которые заслуживают внимания: DeepSeek V3.2, Kimi K2.5, GLM-5, Qwen3.5. У китайцев бесплатен и рассуждающий режим – не забывайте включать на сложных задачах.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.

4❤72👍58🔥10😁4

9.16K views11:15

сбежавшая нейросеть

Будет непросто, но весело (надеюсь)

Если вы в последнее время живете в режиме “что вообще вокруг происходит?”, то подкину топлива, пересказав главное из свежего выступления Сэма Альтмана на BlackRock Infrastructure Summit.

Вообще, выступления людей типа Альтмана стоит слушать осторожно – они активно продают тему ИИ инвесторам, поэтому иногда “галлюцинируют” красоты ради. Но они же, тем не менее, находятся на переднем краю ИИ-прогресса и видят то, что мы увидим в будущем. Постараюсь отделить действительно интересные штуки от “галлюцинаций”.

Порог экономической полезности пройден

Альтман уверен, что несколько месяцев назад ИИ окончательно превратился из необычного помощника в полноценный рабочий инструмент. Больше всего это заметно в кодинге, но происходит и во многих других интеллектуальных областях, вплоть до науки.

Альтман говорит такое не впервые, но в этот раз его слова подтверждают цифры: ожидаемая годовая выручка двух главных на данный момент конкурентов рынка, Anthropic и OpenAI, растет быстрее прогнозов. Обе компании сильно зависят от инвестиций, но тренд виден: все больше бизнес- и частных клиентов воспринимают ИИ как полезный инструмент и готовы платить за него деньги.

Интеллект как коммунальная услуга

Альтман видит будущее, в котором ежемесячный платеж за ИИ так же естественен, как платеж за воду или электричество – хотя я бы скорее сравнивал с оплатой интернета или мобильника. С этой целью компания вкладывается в дата-центры – ИИ должен быть доступным.

И если сейчас это чат-боты и первые, еще неуклюжие, агенты, то в будущем в OpenAI видят ИИ как персонального партнера. Что-то вроде “старшего сотрудника”, которому мы доверяем разные задачи: от рабочих тасков до ведения личных дел. Он будет работать непрерывно, и чем больше накопит контекста о пользователе – тем эффективнее станет.

Стартапы без сотрудников

Альтман приводит пример Индии, где бизнес часто предпочитает не нанимать новых сотрудников, а вкладываться в ИИ-ресурсы. Я уверен, что подобное происходит и в других странах, в том числе, и у нас. Просто это пока сложно посчитать. Если наем и увольнение сотрудников – это понятные цифры, то расходы на ИИ поддаются подсчету сложнее. Тем более, что один из текущих сотрудников может купить ИИ-подписку и использовать ее для повышения своей эффективности.

Что делать в таких условиях? Альтман говорит о буме стартапов без сотрудников и я согласен с ним. Малый бизнес всегда был локомотивом экономики и одним из главных работодателей – и на самом деле, как только он научится пользоваться ИИ, то сможет действовать еще эффективнее, часто обходя неповоротливых гигантов.

Следующие несколько лет будут “болезненными” и ни у кого нет точного ответа – что делать

Альтман верит, что ИИ в конечном счете принесет человечеству блага, однако путь к ним может быть “болезненным”. И дело даже не в локальных страшилках вроде “ИИ заберет вашу работу”, а в том, что придется очень быстро перестраивать общество, искать новые механизмы и ценности.

Традиционный капитализм построен на балансе труда и капитала: работник нужен, потому что без него ничего не произведешь. Но если GPU (и роботы) будут справляться с работой лучше человека — этот баланс ломается. Как перестроить общество под управление изобилием вместо дефицита — совершенно новая задача, и, по словам Альтмана, ответа на нее пока ни у кого нет.

Еще один интересный пример – экономические показатели. Если в результате бума продуктивности товары и услуги подешевеют, то ВВП начнет не расти, а падать – и это не будет чем-то плохим, просто человечеству придется переосмыслить способы измерения качества жизни.

Альтман считает, что дебаты о том, как устроить мир, в какой-то момент будут очень интенсивными и некомфортными. По его словам, ни у кого сейчас нет твердого решения – но, как мне кажется, именно это открывает возможности для самых разных людей.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.

1👍80❤46🔥22😁7

10.9K views17:51

сбежавшая нейросеть

Как говорить с ИИ, чтобы он вас понял

Конец недели – время для полезного лонгрида в подписке на Boosty. В этот раз поговорим о промптах. Я в последнее время часто читаю мнение, что промпт-инжиниринг в классическом виде умирает. Мы все реже будем “программировать” модели с помощью текстов и все больше – работать с ИИ-агентами, которые сами разберут задачу на кусочки, запросят у пользователя нужный контекст, все сделают, а затем еще и перепроверят себя.

Про агентов верно, но они не убирают самый важный навык – навык общения с ИИ. Когда ты правильно пишешь промпты, то этот навык прививается сам собой – я, например, замечаю, как даже в обычном диалоге использую те или иные приемы, которыми ранее пользовался в промптинге. Да и “классические” промпты пока рано сдавать в утиль – например, тому же агенту проще поставить задачу именно таким образом.

Я долго изучал промптинг как на личном опыте, так и чужих примерах и исследованиях. Узнал, какие подходы существуют, какие приемы работают, а какие вредны. А теперь собрал свои знания в одном плотном тексте.

Читать на Boosty

(Друзья, Boosty поддерживает оплату с карт российских и зарубежных банков. Если у вас трудности с оплатой, то:

— отключите VPN
— убедитесь, что оплачиваете через сайт, а не мобильное приложение)

1👍29😁25❤11🔥7👏3

10.7K viewsedited 18:58

сбежавшая нейросеть

Переделка интерфейсов

Постепенно появляются намеки на то, как изменится наша работа с ИИ в ближайшие месяцы и годы.

Начнем с управления агентами через мессенджеры. Уже можно точно сказать, что пресловутый OpenClaw – это не хайп на несколько недель, а популярный рабочий инструмент, пусть и сырой. На базе OpenClaw люди разворачивают персональных и бизнес-ассистентов, автоматизируют процессы.

В Китае OpenClaw продвигается ведущими ИИ-компаниями: они бесплатно устанавливают агента и обучают им пользоваться, дарят API-кредиты и прочие бонусы. Тут простая бизнес-логика: агенты расходуют больше токенов, чем чат-боты, поэтому “подсадив” пользователей сейчас, можно круто заработать на них в будущем.

Количество вариаций на тему также растет. NVIDIA выпустила NemoClaw – по-сути, расширение OpenClaw, которое повышает его безопасность до уровня, достаточного для бизнес-клиентов. Штука интересная: встроено множество дополнительных мер безопасности, плюс чувствительные задачи можно передать локальной модели Nemotron, чтобы данные не утекали наружу. Интерec NVIDIA простой: для запуска потребуются RTX-видеокарты и даже полупрофессиональные ИИ-компьютеры DGX Station.

Anthropic на днях запустили Channels для Claude Code – теперь запущенной сессией можно управлять удаленно, с помощью Telegram и Discord. Фактически это OpenClaw на минималках: нет глубокой памяти и разнообразного функционала, но зато простая установка и лучше безопасность. Опять же, Claude Code программирует так круто, что при необходимости сам напишет большинство нужных вам функций.

Также чуть раньше появился режим Dispatch для Claude Cowork – напомню, Cowork работает с папкой или папками на вашем ПК, а Dispatch добавляет слой удаленного управления через мобильную версию. Перспективы такого подхода оценивать не буду, так как мне Cowork банально не понравился – в текущем виде он очень сырой и не дает чего-то нового в сравнении с Claude Code.

Зато я много времени работаю с OpenClaw, постепенно перетащив в него значительную часть личных и рабочих задач. В чат-боте осталась работа с большими текстами (их через телегу гонять не удобно) и простыми вопросами, а Claude Code запускаю, когда хочу покодить.

OpenClaw у меня запущен на арендованном виртуальном сервере, там же хранятся нужные документы, результаты анализа, workflow для разных задач, прототипы сайтов и программ – удобно, что все это доступно сразу через Telegram. Это не так дорого – VPS стоит до тысячи рублей в месяц, а на нем можно развернуть не только OpenClaw, но и другие полезные штуки.

Минус только в том, что Telegram достаточно ограничен по выводу информации: не более 4000 знаков в сообщении, не пропускает таблицы и сложное форматирование. Я обучил OpenClaw для сложных ответов верстать веб-страницу и выкладывать на сервер – получается быстро и почти без ошибок.

Но это все равно костыль, поэтому интересен подход, с которым, по слухам, сейчас экспериментирует OpenAI. Они хотят объединить ChatGPT, Codex и Atlas, получив, по сути, супер-приложение на их базе.

У каждого из трех приложений есть свои сильные стороны, которые можно использовать. ChatGPT – самое массовое ИИ-приложение в мире, его интерфейс понятен и привычен пользователям. Из Atlas можно забрать веб-слой, чтобы просматривать сайты напрямую, с ИИ-ассистентом, готовым прийти на помощь.

Наконец, Codex – база для агентских сценариев. GPT-5.4 в нем умеет работать с долгими задачами, разбивая их на куски, пробуя разные подходы и не забывая про самопроверку. Как и Claude Code, Codex обычно воспринимают как “штуку для программирования”, но на деле это универсальный инструмент, который годится для самых разных задач. А начать его использовать мешает скорее интерфейс командной строки (уже есть и десктоп-приложение) – если его заменить на что-то похожее на ChatGPT, то порог вхождения будет куда ниже.

Ловите "сбежавшую нейросеть" в: Telegram | на парковке | в Boosty.

5🔥40❤30👍28👏2😁2

10.3K views17:04

сбежавшая нейросеть

Большой дом

41-летний программист из Пекина Ма Жуйпэн три месяца назад уволился с работы, чтобы наконец-то начать свое дело. Но это не обычный бизнес: без офиса, склада, магазинов и сотрудников. Все, что есть у Ма – квартира в Пекине и три компьютера с установленными OpenClaw, Claude Code и Figma. Своего ИИ-агента Ма назвал “Большой дом” – в честь мечты заработать денег на покупку отдельного дома.

Пока что Ма заработал ноль юаней.

Выступая на BlackRock Infrastructure Summit, глава OpenAI Сэм Альтман рассказывал о стартапах без сотрудников, в которых люди “нанимают” для ведения бизнеса ИИ-агентов. Глава Anthropic Дарио Амодеи начал говорить о подобных микробизнесах еще год назад.

Но пока на Западе рассуждают, в Китае делают. Несколько недель как страну накрыл настоящий бум OpenClaw – по оценкам аналитиков, использование этого ИИ-агента в Поднебесной почти в два раза превышает американское.

IT-гиганты вроде Tencent, Zhipu AI и ByteDance выпускают свои версии OpenClaw, адаптированные под местные мессенджеры и ИИ-модели, и активно обучают население их использованию – в один из дней около 1000 человек выстроились в очередь в штаб-квартиру Tencent для бесплатной установки и консультации по агенту. Аналогичные мероприятия проводил Baidu в Пекине — приходили студенты, пенсионеры, офисные работники.

Бум OpenClaw накладывается на государственную политику по развитию OPC – one person company или бизнесов одного человека. Это логично, ведь ИИ-агенты выглядят идеальной дешевой рабочей силой – достаточно платить за простенький компьютер/сервер и токены.

Китайские провинции соревнуются во внедрении программ по поддержке OPC. Власти Шэньчжэня написали политику поддержки OpenClaw + OPC всего за три недели. В ней: 30% субсидия на покупку компьютера, три месяца бесплатных вычислительных мощностей, доступ к обезличенным датасетам, 18 месяцев скидки на офис и два месяца бесплатного жилья при переезде.

Другие провинции не отстают. Набор везде похожий: субсидии на вычислительные мощности, компенсация аренды офиса и жилья, беззалоговые кредиты и т. д. В Ухане даже обещают покрыть часть убытков в случае дефолта.

Интерес государства можно понять. На волне ИИ-бума Китай вложил в строительство дата-центров десятки миллиардов долларов, далеко не всегда грамотно планируя спрос – в итоге многие объекты остались незагруженными. ИИ-агент вроде OpenClaw тратит примерно в 10 раз больше токенов, чем привычные чат-боты – поначалу они компенсируются государством, но затем платить придется самим предпринимателям.

Малый бизнес традиционно считается одним из главных работодателей. Власти ожидают, что OPC привлекут молодежь за счет низкого порога входа. Это может помочь решить проблему молодежной безработицы в стране, которая превышает 17%.

Но есть и скептики. Пример Ма Жуйпэна, ничего не заработавшего с помощью ИИ-агента, не единственный – пока вообще никто не знает, как вести подобный бизнес. Самый стабильный доход у тех, кто устанавливает и настраивает OpenClaw – цена услуги начинается от 70 долларов.

Шансы на то, что вслед за волной хайпа вокруг OpenClaw-бизнесов начнется волна связанных с ними банкротств – велики. Но это типичное правило бизнеса: там, где десять прогорят – одиннадцатый построит что-то успешное, возможно, уже не на одного человека. Экономика страны в любом случае останется в плюсе – благодаря резко возросшему спросу на токены.

Обычно в конце подобных постов я пытаюсь примерить описанную историю на нашу действительность. Но сегодня получается с трудом. Telegram, Discord и прочие мессенджеры, популярные для работы с OpenClaw – у нас замедляются или заблокированы полностью. Лучшие агентские модели вроде Opus 4.6 и GPT-5.4 – заблокированы их разработчиками. Приведет ли OpenClaw-бум к рождению новой индустрии или к провалу – наблюдать, возможно, придется с обочины.

Хотя мы с вами прорвемся, я уверен.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там много интересного!

3👍92❤40🔥21😁5👏4

11K views17:18

сбежавшая нейросеть

Можно ли создать бенчмарк на AGI?

25 марта выходит ARC-AGI-3 от ARC Foundation – третья версия одного из самых интересных ИИ-бенчмарков. Упоминание AGI в названии наводит на мысль, что бенчмарк замеряет соответствие модели общему искусственному интеллекту – но все сложнее. Создатель ARC-AGI Франсуа Шолле называет бенчмарки скорее ориентиром на AGI – соревнуясь в них, разработчики поневоле будут тренировать свои модели одному из самых важных человеческих навыков. А именно – обобщению и рассуждению.

ИИ давно стали мастерами ответов на вопросы. И это неудивительно – ведь в их обучающую выборку помещены почти все человеческие тексты, огромное количество примеров кода, математических решений и так далее. Современная модель даст рецепт приготовления борща, решит домашку по математике, переведет текст на английский и напишет не сложную программу.

Но как только ИИ сталкивается с проблемой, которой нет в его обучающей выборке – вероятность ошибки драматически растет. Это пока человеческое умение – разобраться в задаче, найти похожие примеры и понять, как решать. И это тестируют бенчмарки ARC-AGI.

Первые две версии бенча похожи. ARC-AGI-1 вышел в 2019 году и насчитывал 800 задач-паззлов на основе сеток с цветными клетками. Модели сначала показывали сетку с условием, а затем сетку с решенной задачей – и так от 2 до 5 раз. На основе решенных задач ИИ должен был вывести правило, а затем уже самостоятельно решить по этому правилу новую задачу.

Для человека задачи ARC-AGI-1 были предельно простыми – многие решались за считанные секунды. А вот для ИИ долгие годы этот бенчмарк был практически неприступен – например, GPT-4o набирала в 2024 году около 5%.

Прорыв случился с выходом рассуждающих моделей – в конце 2024 года предварительная версия OpenAI o3 показала 75.7% при расходе токенов на одну задачу в 26 долларов. Тогда же бенчмарк попробовали взять грубой силой, выделив модели максимум ресурсов на размышления – результат вырос до 87,5%, но расход токенов подскочил до умопомрачительной цифры в 4 560 долларов! Сейчас бенчмарк практически “пройден”: Gemini 3.1 Pro берет на нем 98% при цене 0,5 доллара за задачу.

В марте 2025 года вышел ARC-AGI-2. Базовые правила были прежними, но задачи стали сложнее и разнообразнее. Если задачи ARC-AGI-1 человек решал за несколько секунд, то над ARC-AGI-2 приходится подумать – среднее время решения составило 2,7 минуты.

ARC-AGI-2 продержался чуть более 6 месяцев. Та же самая OpenAI o3 набирала в нем 2-3% в зависимости от длительности рассуждений. Но уже в ноябре Gemini 3 Pro показала 31%, а дальше бенчмарк “посыпался”: Opus 4.5 – 37,6%, GPT-5.2 Pro – 54,2%, Opus 4.6 – 68,8%, Gemini 3.1 Deep Think – 84,8%. Надо добавить, что средний человеческий уровень в ARC-AGI-2 равняется 60%.

По словам Шолле, в поведении моделей видно, что разработчики постепенно понимали, как натаскивать их на прохождение бенчмарка – сначала ARC-AGI-1, а затем и ARC-AGI-2. Но в этом нет ничего осудительного: получается, что как человеку нужно какое-то время на освоение навыка, так и ИИ – на дообучение под него.

Интересно, что сразу несколько стартапов и энтузиастов разрабатывали под ARC-AGI-2 альтернативные оболочки: в основе там лежали привычные модели вроде Grok 4, но менялся подход к проблеме – ИИ запускал много разных вариантов решения, а затем отбирал лучшие и “эволюционировал” их. В какой-то момент такие стартапы даже вырвались вперед, а эволюционную концепцию в будущем можно адаптировать под другие задачи.

ARC-AGI-3 не просто усложнит задачи – ИИ самому надо будет управлять интерфейсом, перемещать предметы, нажимать на кнопки. Фактически, это будет первый такой бенчмарк для ИИ-агентов. Посмотрим, как быстро он сдастся, но Шолле уже говорит, что у него есть идеи на 4-ю, 5-ю и 6-ю версии бенчмарка. Можете попробовать и сами – по ссылке есть три задачи.

Кстати, на Boosty у меня есть обзор бенчмарков ИИ – на какие советую смотреть при выборе и почему. Так что подписывайтесь на Boosty, там все больше интересного!

3🔥32👍19❤12👏3😁1

8.88K views19:46

сбежавшая нейросеть

AGI уже здесь – но никто не знает, что это значит

В последние дни сразу две крупных ИИ-персоны вновь подняли тему пресловутого AGI. 22 марта в подкасте Лекса Фридмана глава NVIDIA Дженсен Хуанг заявил, что AGI в каком-то виде уже здесь. Но с оговоркой.

Фридман дал свое определение AGI – это система, способная создать бизнес ценой в 1 млрд долларов и больше, а затем управлять им. Хуанг с иронией ответил, что да – уже сейчас Claude Code может “повезти” собрать вирусное приложение, которое заработает этот миллиард. Но даже 100 тысяч агентов не смогут управлять компанией вроде NVIDIA — шансы, по его словам, нулевые. И есть куда расти.

Позже суеты добавил Сэм Альтман, который взял за привычку переворачивать OpenAI с ног на голову каждые несколько месяцев. OpenAI закрывает Sora — генератор видео, запущенный полгода назад, — и перебрасывает вычисления на новую модель Spud. По словам Альтмана, она сможет "реально ускорить экономику".

Наконец, внутри компании появился отдел AGI Deployment – запуска AGI. Во главе стоит Фиджи Симо, которая сейчас отвечает за продуктовое направление, вроде ChatGPT. Гипотезы могут быть разными, но выглядит это так, будто в OpenAI считают Spud и последующие версии близкими к AGI и начинают готовить оболочку для этих моделей.

Интересно, что задолго до Хуанга и Альтмана про AGI заговорил Али Годси – CEO Databricks, компании-платформы для корпоративных данных и ИИ с оценкой в $134 млрд.

Еще осенью 2025-го Годси сказал, что AGI уже здесь – просто мы его не замечаем. В качестве подтверждения он привел в пример то, как 20 лет назад обсуждал AGI с коллегами в лаборатории как систему, которая будет свободно разговаривать с пользователем, рассуждать, находить паттерны данных. Собственно – все то, что современные модели умеют уже более года.

Дальше Годси как в воду глядел: по его словам, даже если “заморозить” модели, существовавшие на осень 2025 года, то на их базе можно делать ИИ-агентов, полезных для бизнеса. Собственно, это и стало происходить к концу года с ростом популярности Claude Code, Codex и OpenClaw.

В индустрии есть и другие мнения. Хассабис регулярно утверждает, что до достижения AGI нужны минимум прорыва – непрерывное обучение и долгосрочное планирование. Ян Лекун, один из отцов машинного обучения, вообще считает, что текстовые модели не достигнут AGI, так как они не понимают правил реального мира.

Но вот что интересно. В последнее время ведущие студии научились обновлять свои модели примерно раз в два месяца. Конечно, надо потратить еще какое-то время на подготовку обучающих данных, но уже сейчас можно говорить о том, что заложить какой-то нужный навык в ИИ можно за несколько месяцев. А это не дольше времени, которое профессиональный сотрудник тратит на то, чтобы освоиться на новом рабочем месте.

Впрочем, агенты вроде Claude Code уже обходят это ограничение – они учатся без переобучения модели: пишут себе workflow, дописывают код, сохраняют контекст. Не полноценное непрерывное обучение – но для бизнес-задач хватает. Да и с пониманием мира все становится лучше – компьютерное зрение у последних версий Gemini и GPT подтянули очень круто.

Сейчас каждый вкладывает в AGI то, что ему удобно. Хуангу важно продавать GPU, Альтману – привлекать инвестиции и искать источники прибыли. Лекуну – получать деньги на свои исследования. Сам AGI распался на кучу интеллектуальных задач: одни ИИ уже хорошо выполняет, другие – скоро научится.

В какой-то момент в будущем историки ИИ оглянутся назад – и назовут дату, от которой ведется отсчет AGI. Мой прогноз: или осень 2024 года (первые рассуждающие модели), или осень 2025-го (Opus 4.5 и GPT-5.2, ставшие основой для действительно мощных ИИ-агентов).

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!

1🔥60👍40❤27😁5👏2

8.36K views17:33

сбежавшая нейросеть

Что не так с ARC-AGI-3?

Недавно я рассказывал про бенчмарки на абстрактное мышление ARC-AGI. Теперь же вышел ARC-AGI-3, который вызвал множество вопросов – и к устройству самого бенчмарка, и к тому, правильно ли вообще измеряется эффективность ИИ.

Напомню: ARC-AGI замеряют способность ИИ обобщать знания для решения новых задач. В первых двух версиях модели видели пары “условие – решение” на цветных сетках, выводили правило и применяли его к новой головоломке. Оба бенчмарка сейчас можно считать пройденными.

ARC-AGI-3 стал заметно сложнее. Он состоит из интерактивных головоломок: игровое поле с разными фигурами, управление с помощью стрелок и не всегда понятная цель. ИИ дают возможность “видеть” поле и нажимать кнопки – и все. Дальше агент должен сам разобраться в управлении, догадаться о цели и решить задачу.

Результаты на первый взгляд обескураживают: люди – 100%, лучший ИИ (Gemini 3.1 Pro) – 0,37%. Но прежде чем отодвигать планку AGI, давайте посмотрим, как именно оценивают модели.

Организаторы отобрали 486 участников в Сан-Франциско, которые тестировали задачи бенчмарка. В финальный набор задача попадала только в случае, если ее с первой попытки проходили минимум 2 из 10 тестеров – то есть, в ARC-AGI-3 в принципе нет задач, которые решал бы ИИ, но не решал человек.

Далее в ARC Prize вывели метрику RHAE, которая считает эффективность ИИ в действиях относительно второго лучшего человеческого результата. Формула квадратичная: если человек прошел уровень за 10 действий, а ИИ за 100 — результат не 10%, а (10/100)² = 1%. Потолок 1.0 — модель не может набрать выше человека. Поздние уровни весят больше ранних.

Поэтому 0,37% — это не доля решенных задач, а эффективность относительно человека. Сколько именно уровней проходят модели, авторы не раскрывают.

Но самая большая проблема бенчмарка – отсутствие даже элементарной агентской обвязки. Те же Claude Code, Codex и OpenClaw для выполнения задачи пишут код, а полученные знания сохраняют в файлах типа Claude.md. Здесь каждую игру ИИ начинает с нуля с минимумом инструментов.

Создатель бенчмарка Франсуа Шолле объясняет это тем, что замеряет “сырой интеллект”: людей тоже сажали перед незнакомой игрой без подпорок. Но если поиграть самому, видно: в первых задачах усваиваешь принципы, которые работают и позже. А модель каждый раз стартует с нуля — сохранять знания между играми ей не разрешено. Плюс визуал быстро забивает контекстное окно — к концу раунда модель может забывать то, что узнала в начале.

Шолле верит, что прохождение ARC-AGI-3 станет вехой в развитии ИИ – как это было с предыдущими версиями. ARC-AGI-1 пал при появлении рассуждающих моделей, ARC-AGI-2 – на фоне прогресса агентских систем. ARC-AGI-3, по его логике, падёт тогда, когда появится что-то принципиально новое – например, непрерывное обучение, при котором модель обновляет свои веса прямо в процессе работы.

Но вот в чем ирония: современные агенты уже учатся без изменения весов. Claude Code пишет себе workflow, сохраняет контекст, дописывает код, который использует в будущем. Это не полноценное непрерывное обучение – но для бизнес-задач его хватает. И именно такой подход ARC-AGI-3 запрещает на официальном лидерборде.

На мой взгляд, ARC-AGI-3 замеряет реальную вещь – способность разобраться в незнакомом с нуля. Но способ замера не отражает то, как ИИ сегодня используется. Поэтому в ближайшее время интереснее следить за двумя другими площадками. Community leaderboard – где любой может запустить свою агентскую систему с любой обвязкой. И Kaggle-соревнование с призовым фондом $2 млн – где решения обязаны быть open source. Правда, пока и там негусто: через 12 часов после старта лучший результат на Kaggle не дотягивает даже до шаблонного решения.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!

4👍52❤18🔥13😁3👏2

9.22K views17:33

сбежавшая нейросеть

Не спрашивайте ИИ – заставьте его думать

Пока одни хоронят промпты, я продолжаю разбирать эту тему в подписке на Boosty. Собственно, вот новый лонгрид:

Как заставить ИИ думать глубже: 8 техник сильного промптинга

Действительно, агентские системы сейчас быстро вытесняют чат-боты. Но умение правильно писать запросы нужно и в работе с ними – иначе вы потратите больше времени, а результат будет хуже.

Кроме того, промпты – это универсальный язык обмена идеями. В основу сегодняшнего лонгрида я положил свои любимые техники, которыми пользуюсь месяцами. Но когда закончил работу, то понял – чего-то не хватает.

Я попросил Opus 4.6 и GPT-5.4 предложить, чем еще дополнить подборку. Отобрал самые интересные варианты, начал проверять и… вылетел из жизни на несколько часов – настолько свежими и интересными были многие подходы. Поделюсь, например, least-to-most (декомпозиция):

У меня есть канал в Telegram на 19 тысяч подписчиков, вдобавок к нему я хочу запустить платную подписку на Boosty. Разбери эту задачу по принципу least-to-most, поясни, что от меня требуется на каждом этапе и какие риски могут быть.

Другие классные промпты читайте в лонгриде. А в подписке уже накопилось 5 текстов, полезных любому, кто работает с ИИ.

Самое время присоединиться!

1🔥48❤20👍14😁14

9.09K views16:44

сбежавшая нейросеть

Мифическая капибара

Сегодня разбираем свежую утечку документов Anthropic: из-за кривой настройки CMS в открытом доступе оказались черновики постов о Claude Mythos и Capybara. Судя по всему, это одна и та же модель: текст в постах не отличается, поэтому в компании, похоже, выбирают одно из двух названий.

Амбиции впечатляют: уже сейчас Opus считается одной из самых больших моделей на рынке, но пост обещает, что Mythos станет еще больше. Интересный факт: весь 2025 год в ИИ-сообществе доминировал подход, что нет смысла дальше увеличивать размер модели, сгружая в нее все новые и новые знания – ИИ таким образом больше не умнеет, а вот находить качественные данные для обучения становится все сложнее. По слухам, та же GPT-5 – небольшая модель, при создании которой ресурсы были вложены в пост-тренировку (обучение модели лучше отвечать на вопросы) и улучшение цепочки рассуждений.

Но в конце года Gemini 3 Pro и Opus 4.5 показали, что большие модели легко могут брать первые места в бенчмарках. Особенно интересен Opus 4.5 / 4.6 – во многих тестах версия без режима рассуждений держится на уровне рассуждающей и даже превосходит ее.

Так что в 2026 году мы видим возвращение к старому подходу. По словам Илона Маска, размер Grok 5 будет в 6 трлн параметров – в 2-3 раза больше Grok 4. OpenAI также признала, что недостаточно вкладывалась в предварительное обучение – и в последних версиях GPT стала исправлять этот недостаток. Ну а теперь Anthropic, похоже, готовится задать новую планку.

По информации из поста, в ранних тестах Mythos показывает существенный прирост в заданиях на логику, написание кода и кибербезопасность – иронично, что Anthropic, утверждая о прорыве в кибербезе, сама допустила утечку информации из-за ошибки в конфигурации CMS 😄

Шутки шутками, но сразу после появления блог-поста, акции компаний, занимающихся кибербезом, мощно упали. В самой Anthropic опасаются, что у роста возможностей модели в этой области может быть обратная сторона – если злоумышленники найдут, как обойти алгоритмы защиты Mythos, то модель может быть использована для взлома. По этой причине Mythos пока тестируется группой клиентов, которым Anthropic доверяет больше всего.

Другая проблема – большая модель намного дороже в обслуживании, а у Anthropic и так одни из самых высоких цен на рынке. Тот же Opus 4.6 свободно получается использовать только на подписках Max ценой в 100 и 200 долларов – но после выхода Mythos, как мне кажется, даже на этих планах придется аккуратно подходить к выбору модели.

С другой стороны – у Anthropic нет модели уровня GPT-5.4 Pro или Gemini 3.1 Deep Think, доступной только на про-подписках, зачастую с ограничениями (у Deep Think 10 запросов в день).

Плюс в Anthropic уже работают над тем, чтобы сделать Mythos доступнее для массового пользователя – возможно, облегченные версии модели лягут в основу новых Opus и Sonnet. Хорошо, если они унаследуют высокие характеристики в кибербезе – сейчас большим препятствием в распространении OpenClaw и других ИИ-агентов являются опасения в их неустойчивости ко взлому. Новые модели могут решить этот вопрос.

В Anthropic подтвердили утечку, но не стали раскрывать дополнительных деталей, в том числе насчет даты выхода. Но полагаю, что компании придется поторопиться с запуском как минимум облегченных версий Mythos – ведь OpenAI готовит ответ.

Уже сейчас GPT-5.4 Thinking во многих областях идет наравне и даже обходит Opus 4.6. При этом во внутреннем письме к сотрудникам OpenAI, Сэм Альтман рассказал о завершении предварительной тренировки новой модели под кодовым названием Spud. Интересно, что ради Spud компания приостановила разработку Sora, а внутри OpenAI появился отдел AGI Deployment – запуска AGI. Насколько крутыми будут новые модели – узнаем совсем скоро, ведь по данным из того же письма, запуск Spud намечен на ближайшие недели.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!

👍60🔥23❤18😁3🥰1👏1

8.13K views11:25

сбежавшая нейросеть

Если правда, то это даже не выстрел в ногу, а сразу бросок гранаты без чеки

Прямо сейчас ИИ из продвинутого болтуна и забавного собеседника превращается в главный рабочий инструмент, ускоряющий экономику. Это пока плохо видно в статистике – она запаздывает, плюс не до конца понятно, как вычислять эффект от ИИ, который в основном используют “снизу”. Но это очевидно почти всем, кто работает в сфере ИИ и IT – люди, которые еще полгода назад посмеивались над навайбкоженными программами, сегодня не пишут ни строки кода без помощи Claude Code.

В России самые мощные модели ИИ заблокированы их разработчиками. Чтобы работать в Claude Code, Codex, настроить OpenClaw – приходится искать способы обхода этих блокировок, а также варианты оплаты через чужой регион. Многие сдаются, уходя на бесплатные версии или китайские модели попроще, кто доходит до конца – платит за подписку на 20-30% больше. Если утечка подтвердится, то в ближайшее время этот путь может стать еще более сложным.

Конечно, можно успокаивать себя тем, что наши-то возьмут и сделают свой ИИ ничуть не хуже заморского…

Нет, не сделают.

Чтобы натренировать хороший ИИ, нужно три вещи: парк ИИ-ускорителей, качественный датасет и хорошие ML-программисты. По ускорителям Россия полностью отрезана от официальных белых каналов. Их рынок контролируется США, а санкции в отношении России в этой области – одни из самых жестких. Даже в Китай допускается поставка урезанных версий чипов, к нам же – никаких.

Какое-то количество чипов ввозится серыми каналами, какие-то модели можно дообучить на зарубежных облачных площадках, но это просто другой масштаб. По этой оценке, парк ускорителей в России составляет около 20 тысяч устаревших A100. Для сравнения – в Epoch AI считают, что GPT-5 тренировали на 180-200 тысячах более мощных H200. А ведь это модель, устаревшая почти на 8 месяцев.

Видел новость, что один отечественный разработчик запросил 450 млрд рублей на строительство дата-центра для обучения ИИ – и получил отказ. Кстати, ведущие ИИ-компании США в 2026 году также вложат в инфраструктуру около 450 млрд – только долларов, а не рублей. Сравните масштаб.

Что дальше – качественные дата-сеты? В условиях, когда на интернет постоянно накладывают ограничения, собрать их будет очень непросто. Разработчики отечественных моделей любят делать упор на то, что они лучше справляются с русским языком, но будем честными – последние версии Gemini и Opus замечательно пишут на русском. Передовой ИИ должен хорошо писать код, разбираться в математике и офисных задачах – и здесь без международных материалов не обойтись.

Наконец, специалисты. Я с большим уважением отношусь к отечественным айтишникам, работаю рядом с ними и знаю, как много среди них талантливых ребят. Но помимо таланта важен и опыт, а его куда проще набрать в OpenAI, Anthropic или xAI с их практически неограниченными ресурсами. Я стараюсь следить за научными исследованиями в области ИИ – и работ из России вижу крошечный процент.

Как мне кажется, в таких условиях удастся создать ИИ, отстающий от лидеров минимум на год-полтора. И если для какой-то индустрии такое отставание ничего не значит, то в случае с ИИ – это пропасть между “кодит ерунду” и “пишет 90% моего кода”.

Дальше прогресс будет ускоряться: уже сейчас передовые модели Anthropic и OpenAI используются для улучшения своих будущих версий – и эффект на каждом новом витке может стать выше.

По грубой оценке, есть 1-3 года до момента, пока ИИ не начнет драматически влиять на все сферы экономики. И если за это время не решить проблему с широкой доступностью передовых моделей – мы рискуем отстать навсегда.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ, а в ближайшее время планирую начать публиковать распечатки программ для Радио РК-86 и схемы сборки ZX-Spectrum.

7👍210❤56🔥31👏17😁15

8.12K viewsedited 17:04

сбежавшая нейросеть

Knowledge cutoff – что за параметр ИИ и как с ним работать

Обучение большой языковой модели занимает от нескольких недель до нескольких месяцев. Да и данные, на которых тренируется модель, нужно подготовить – убрать из корпуса знаний совсем мусор, сделать разметку с пояснениями, где хороший пример текста, а где плохой.

В результате у всех моделей есть knowledge cutoff – дата (обычно месяц), по которую у них есть знания. Кстати, граница эта нечеткая: корпуса знаний для тренировки огромные, поэтому в них могут пропустить и какие-то события внутри knowledge cutoff и добавить что-то за его пределами.

C недавнего времени Anthropic стала давать сразу две даты для моделей Claude. Reliable knowledge cutoff – дата, по которую у ИИ есть уверенные знания. И Training knowledge cutoff – дата, по которую у модели есть частичные знания. Z бы проверял информацию внутри этого промежутка более тщательно.

В табличке в начале поста я собрал knowledge cutoff для большинства популярных моделей. В случае с ИИ от Google, Anthropic и OpenAI эту информацию можно взять из системных карточек моделей, то, например, с китайцами пришлось повозиться.

На вопрос what is your knowledge cutoff честно ответила только Kimi K2.5. С остальными пришлось проворачивать следующий промпт:

Не используя поиск в сети, назови главные события января 2025 года.

Если модель расскажет про реальные события – месяц попадает в ее корпус знаний. В противном случае ИИ соберет заранее известные события: даты праздников и запланированных крупных политических, общественных и спортивных мероприятий. С помощью нескольких таких промптов можно примерно вычислить нужный месяц.

Но если ИИ умеет добирать нужную информацию в интернете, то нужно ли вообще беспокоиться о его knowledge cuttof? Нужно: данные из корпуса знаний, заранее отобранные и проверенные специалистами, почти всегда качественные, а вот с тем, что нашлось в сети, есть проблемы.

К счастью, современные модели неплохо умеет отличать совсем уж дикую желтуху от качественной информации. Но дело в другом. Во-первых, проверяйте, додумалась ли модель вообще использовать поиск – обычно она пишет об этом серым шрифтом во время генерации ответа. Во-вторых, ИИ может банально не найти нужную информацию – по каким запросам он “гуглит” обычно можно увидеть, кликнув по тому же серому шрифту.

И третий, самый сложный, кейс – когда модели предстоит работать с событием, которое растянуто по времени на несколько недель, то она может найти только текущую ситуацию, но не собрать контекст предыдущих недель. В итоге ИИ будет путаться, додумывать ответы и давать неправильные оценки.

Лучшей в веб-поиске я считаю GPT-5.4 Thinking – она докапывается до неочевидных фактов и проверяет максимум деталей. Цена этого – даже на не очень сложный вопрос модель может отвечать до нескольких минут. Плюс мне не нравится стиль ее ответов.

Поэтому чаще я работаю с Opus 4.6 и там использую другой подход – он же подойдет для большинства ИИ. Knowledge cutoff этой модели август 2025 года, поэтому диалоги о более поздних событиях я начинаю со сбора информации. Например, если мне нужно установить или настроить OpenClaw, то стартую с такого промпта:

Мы будем работать с OpenClaw. Прочти в сети общую информацию об этом ИИ-агенте, а также найди и прочитай техническую документацию на него.

Или, например, я хочу прогнать через Opus 4.6 последние новости о лунной миссии Artemis II. Тут важно, чтобы у модели была хронология:

Мы будем обсуждать новости об Artemis II. Найди и прочитай свежую хронологию этой миссии.

В некоторых случаях модель и сама догадается собрать всю нужную информацию. Но такой подход надежнее, плюс у него есть еще один плюс – информация окажется в одном месте и в самом начале беседы, где модели будет проще ее читать при следующих запросах.

Кстати, на Boosty у меня есть отдельный лонгрид о том, какие характеристики моделей надо знать обычному пользователю. Не забывайте оформлять подписку – это всего 500 рублей в месяц за знания и практический опыт.

2❤49👍31🔥14👏2😁2

9.25K viewsedited 19:09

сбежавшая нейросеть

Разбираем возможные обновления Claude Code

Раз уж сегодня 1 апреля, то начнем с анекдота последних дней. Я уже писал, что Anthropic завершила работу над очередной моделью – Claude Mythos/Capybara. Новинка уже тестируется избранными партнерами, а отдельно в Anthropic отмечают то, насколько сильна “Капибара” стала в кибербезопасности.

Оно и видно: про Mythos/Capybara несколько дней назад все узнали из черновиков блог-постов, которые утекли в сеть из-за неправильной настройки CMS компании. А следом по ошибке одного из сотрудников в сеть утек исходный код Claude Code. Все 512 тысяч строк – и никакая капибара не помогла.

Утечка настолько мощная, что разбирать подробности ИИ-сообщество будет несколько дней. Пока вытащил самое интересное – скрытые функции, которые уже написаны, но еще не выпущены.

KAIROS

Пожалуй, самая мощная разработка. В этом режиме Claude Code превращается из инструмента, который ждет команды пользователя, в самостоятельного агента.

Раз в определенное время Claude получает “тики” – сигналы, по которым решает, нужно ли что-то сделать. Подписывается на вебхуки GitHub, ведет ежедневные логи, а когда пользователь не работает – запускает процесс под названием autoDream.

Да, “Клод видит сны”: отдельный субагент анализирует проделанную работу и переносит все полезные знания в файлы памяти. Очень похожий алгоритм уже реализован в OpenClaw. Добавляем сюда то, что Anthropic уже реализовала возможность управлять Claude Code через мобильное приложение – и делаем вывод, что компания думает об аналоге OpenClaw, но заточенном под кодинг и безопасность.

ULTRAPLAN / ULTRAREVIEW

В Claude Code уже есть режим планирования, вызываемый командой /plan – в нем модель задает пользователю вопросы и предлагает архитектуру будущего проекта. Судя по всему, ULTRAPLAN – режим планирования на максималках. Он работает на Opus 4.6 и запускается в отдельном контейнере, а на планирование тратит до 30 минут. За процессом можно наблюдать удаленно: если результат нравится, то одобрить, если нет – отправить на переработку.

ULTRAPLAN пригодится там, где обычного режима недостаточно – масштабный рефакторинг, миграция архитектуры, сложная отладка и т. д. Также в коде нашли ULTRAREVIEW – нечто похожее, но для код-ревью.

Coordinator

Это или развитие уже существующего режима Agent Teams или его альтернативная версия. Идея похожая: есть ИИ-координатор, который рулит сразу несколькими агентами, независимо работающими над разными частями проекта.

Процесс организован масштабно: воркеры исследуют кодовую базу, тимлид раздает им задачи, а для проверки привлекается даже “адвокат дьявола” – отдельный ИИ-агент, прогоняющий результат через многочисленные тесты.

Buddy

И обновление, которое доступно уже сейчас: запускайте Claude Code, обновляйте до последней версии, пишите /buddy – и ловите питомца!

Именно так – не всем же обновлениям быть серьезными! Buddy – это встроенный в Claude Code питомец-тамагочи (!) с гача-механикой (!!!). При первом запуске выпадает существо одного из 18 видов — от Dustbunny и Mossfrog до легендарного Nebulynx.

Вид определяется хешем аккаунта: один пользователь — всегда один и тот же питомец. Шанс получить легендарного — 1%, а поверх этого есть отдельный 1% на “блестящую” версию. Блестящий легендарный Nebulynx — шанс 0,01%.

У каждого питомца пять характеристик: Debugging, Patience, Chaos, Wisdom и Snark. Плюс стили глаз, шляпы (часть привязаны к редкости), ASCII-спрайты с анимацией и “описание души”, которое Claude пишет при первом вылуплении.

Я уже своего поймал – досталась… капибара! Буду кормить ее получше, чтобы не слила в сеть какие-нибудь мои секреты.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!

❤67😁33🔥17👍12👏2

8.11K viewsedited 13:49

About

Blog

Apps

Platform