сбежавшая нейросеть
18K subscribers
172 photos
54 videos
167 links
Авторский канал про искусственный интеллект: новости, примеры использования, мысли в тему и не очень. Подписывайтесь!

Я в Boosty: https://boosty.to/escaped_ai

Для связи: @runawayllm_bot
Download Telegram
Про использование ИИ для медицинских консультаций

OpenAI немного встряхнули сообщество – компания внесла изменения в правила использования ChatGPT, по которым ИИ больше не ставит точные медицинские диагнозы, а также не дает профессиональные советы в юриспруденции и инвестициях. Компания толком не пояснила изменения, поэтому пошла информация, что ChatGPT вообще не будет помогать в этих областях.

Это не так – ответы модели где-то стали строже, но грамотную консультацию от нее можно получить, если знать, как промптить. Примеры я покажу далее, но сначала давайте поговорим об использовании ИИ для медицинских советов.

По статистике, запросы советов по медицине, ЗОЖ, психотерапии и праву сейчас входят в лидирующие кейсы использования ИИ. Можно относиться к этому по-разному, но это состоявшийся факт.

Обычно использование ИИ для медицинских советов критикуют в духе, что нейронки не заменят живого врача. Однако это ошибочный подход – сравнивать врача и ИИ. Нейросети надо сравнивать с коллективным бессознательным интернета, куда пациенты идут за “консультацией” когда не получается быстро добраться до врача (или не хочется), врач что-то не до конца пояснил, есть подозрение, что как-то не так лечат, ну или просто характер такой.

И здесь современные нейронки выигрывают у интернета с разгромным счетом. По моему опыту, передовые модели в курсе, что такое доказательная медицина, смотрят, какие лекарства и методы лечения доступны в стране пользователя, умеют искать по исследованиям и при этом знают, что у исследований есть свои ограничения. А главное – они не стесняются напомнить, что дальше стоит пойти ко врачу.

Осталось разобраться, как правильно пользоваться ИИ. В свое время на Reddit была интересная публикация от врача из США, в которой он отметил:

1. В его госпитале ИИ пользуется большинство врачей и пациентов.
2. Специалисты ценят ИИ за быстрый и грамотный поиск информации, а также возможность перепроверить и уточнить свои знания.
3. У ИИ есть и свои пробелы – например, часто для диагноза необходим контакт с пациентом, чтобы посмотреть, как он выглядит, говорит и держится.
4. Пациентам врач рекомендует использовать ИИ для подготовки визита к врачу и для расшифровки диагноза.

Как раз для пункта 4 я накидал два промпта. Вот для подготовки:

Помоги подготовиться к визиту ко врачу:

[Описываем пациента, возраст, рост, вес, хронические заболевания, серьезные заболевания у родственников]

[Описываем проблему максимально детально]

Сначала задай вопросы, которые тебе помогут лучше узнать ситуацию.

Я постараюсь ответить на них, затем ты:
— Перечисли возможные причины моей ситуации.
— Подскажи, к какому врачу (или врачам) надо обратиться, как срочно.
— Подскажи, при каких изменениях в ситуации нужно срочно обращаться ко врачу.
— Подскажи, что я могу предпринять до визита сам для облегчения ситуации.
— Подскажи, какую дополнительную информацию мне подготовить, чтобы врачу было проще работать.


Отдельно отмечу пункт 5: время на прием часто ограничено и если вы придете с четким описанием проблемы – спасибо скажут и вам, и ИИ.

Если же на руках уже есть диагноз, то загружаем его и все анализы в систему (сейчас почти у всех клиник есть приложения с цифровой картой пациента), а затем пишем:

Изучи анализы, диагноз и назначенное лечение, затем:

— Объясни суть диагноза и лечения понятным для пациента языком.
— Подскажи, что мне отслеживать, чтобы понять, что лечение успешно.
— Перечисли альтернативы, которые обычно обсуждают при таком состоянии.
— Подскажи, надо ли подключать других специалистов при таком диагнозе.


Если все-таки нужно углубиться в детали определенного заболевания – то далее расспрашивайте ИИ в контексте самого заболевания, а не пациента (“расскажи про…”). Тогда он более охотно раскроет детали, диагностику и схемы лечения.

Но пожалуйста, не используйте эту информацию для самолечения: ИИ отличный вспомогательный инструмент – но не замена живому специалисту.

#сбежавшая_нейросеть_промпты
287👍37🔥11🥰1😁1
Он сказал: “Поехали!”

Сразу две похожие новости прошли в последние дни. Первая – очередная ракета SpaceX вывела на орбиту небольшой спутник Starcloud-1 с ИИ-ускорителем Nvidia H100 на борту. На ускорителе, кстати, крутится модель Google Gemma, которая считает научные данные и отправляет информацию на Землю. В планах разработчиков – обкатать технологию, а уже к 2027-му начать развертывать полноценные орбитальные дата-центры и сдавать их мощности в аренду.

Параллельно Google рассказала об исследовательском проекте Suncatcher. К середине 2030-х компания хочет развернуть целый рой спутников с TPU на борту – это фирменные гугловские ускорители ИИ (компания почти не пользуется GPU Nvidia, а развивает свое успешное направление).

Спутники планируют разместить на небольшом расстоянии друг от друга и объединить лазерной связью – получится такой распределенный дата-центр. При этом орбита Suncatcher подобрана таким образом, что солнечные батареи будут вырабатывать в 8 раз больше энергии, чем если бы их разместили на Земле.

Количество инженерных задач, которые предстоит решить авторам обоих проектов, невероятно велико. Например, в вакууме нет конвекции – а значит, классическое воздушное или водяное охлаждение невозможно. Сбрасывать температуру можно только излучением – для этого сейчас разрабатываются сложнейшие радиаторы. Но если все получится – то будет решен вопрос расхода воды для охлаждения.

Кроме того, на орбите чипы будут подвержены воздействию солнечной радиации – значит, надо обеспечивать дополнительную защиту. Плюс общий вопрос надежности: в дата-центрах регулярно “вылетают” чипы и вспомогательное оборудование, что, конечно, неприятно, но не смертельно – придет инженер и починит. Провернуть похожий трюк на орбите будет непросто даже в 2035 году. Да и в целом стоимость запуска GPU в космос пока очень высока – в Google как раз рассчитывают, что в 2035-м цены упадут настолько, что проект станет экономически целесообразным.

Зачем тогда это нужно? Главная причина – энергия. Энергетика США уже с трудом справляется с запросами ИИ-компаний; китайцы держатся лучше, но и у них есть свои проблемы. И если пока основной статьей расходов является обучение новых моделей, то в будущем инференс (запуск уже обученных моделей) выйдет на первое место: ИИ будет использоваться все большим числом компаний, научных организаций и частных пользователей, появятся ИИ-агенты, автономно работающие сутками – и все это потребует энергии.

Непримиримые соперники, Сэм Альтман и Илон Маск, соглашаются в одном – в будущем настанет момент, когда ИИ будет “умен” настолько, насколько много энергии мы ему дадим. Бесконечно застраивать планету электростанциями не выйдет – поэтому рано или поздно придется тянуться в космос.

Тем более что в космосе мигом решаются почти все проблемы солнечных панелей. Если правильно подобрать орбиту, то Солнце будет светить почти всегда, а не только днем и в хорошую погоду. Да и отсутствие атмосферы дает свой бонус – отсюда и получается в 8 раз большая эффективность.

При этом спрос на вычисления найдется прямо там, в космосе. Многие орбитальные сенсоры уже собирают терабайты данных, отправлять которые на Землю очень сложно – отсюда и идея обрабатывать их прямо на месте.

К 2035 году объемы таких данных должны возрасти на порядки. Ответы на многие научные вопросы нам предстоит искать в космосе, причем с помощью все более сложных сенсоров и навороченных зондов.

Наверное, почти каждый в детстве прочитал хотя бы одну научно-популярную книжку, в которой рисовалось будущее освоение космоса: с кораблями, которые куда-то везут грузы, орбитальными фабриками, базами на Луне и Марсе, зондами, мчащими к соседним звездным системам… полагаю, теперь в эту романтическую картину можно добавить еще один штрих – гигантские орбитальные дата-центры, на которых будет крутиться наследница нынешней GPT-5.
🔥67👍3226😁7
О (без)опасности ИИ

Когда заходит речь про потенциальную угрозу от ИИ, многие вспоминают апокалиптический сценарий, который сами люди придумали. Человечество выпускает супер-ИИ, тот осознает себя, выходит из-под контроля и мигом выносит своих создателей.

Более научная гипотеза – “Максимизатор скрепок” – была предложена одним из “отцов ИИ”, Ником Бостромом. ИИ в ней совсем не враждебен: его задача – наладить эффективное производство скрепок. Поскольку ИИ плохо выровнен (настроен), то в какой-то момент в погоне за эффективностью он расправляется с людьми, ведь они тратят нужные ресурсы.

У этих и других сценариев есть одна черта – ИИ в какой-то момент должен обзавестись некой формой самосознания. Я уже несколько раз рассказывал на канале, что сейчас это практически невозможно: современные модели тренируются заранее на огромном объеме знаний, а при выпуске “замерзают”: они не обладают глобальной долговременной памятью (память в рамках чата – другое) и не умеют на лету осваивать новые навыки.

Над самообучением и долговременной памятью прямо сейчас работают лучшие ИИ-команды в мире – например, без них невозможны ИИ-агенты для динамично меняющегося бизнеса, где нужно осваивать навыки каждый день. Но даже когда такие технологии будут реализованы, это будет уровень именно отдельных ИИ-агентов. Создание некоего “мегаразума” (или “роя” агентов, обменивающихся знаниями) – следующий виток ИИ-технологий, к которому, надеюсь, мы подойдем более подготовленными.

СМИ сейчас любят рассказывать, как ИИ во время тестов на безопасность лгут, шантажируют создателей и даже пытаются убить одного из инженеров, чтобы избежать выключения. Но все это – примеры из предварительных проверок безопасности, организованных разработчиками и независимыми компаниями, вроде Apollo Research.

ИИ обучаются на материалах, созданных людьми, где примеров подобного поведения на несколько библиотек. Логично, что оно наследуется, а цель проверок – как раз “выровнять” модель перед запуском, показав, как делать не стоит. Кстати, СМИ реже рассказывают про противоположные примеры – в одном из сценариев ИИ-агент работал в фармацевтической компании, которая фальсифицировала испытания лекарств. Узнав об этом, ИИ мигом настрочил жалобы во все контролирующие органы и слил информацию прессе, чтобы компания не навредила людям.

Как минимум в ближайшем будущем “опасность” ИИ скорее в другом – технология новая, и мы еще толком не знаем, как ее использовать. В OpenAI приводят интересную аналогию: распространение интернета стало не только благом, но и источником новых угроз – онлайн-вирусов, недостоверной информации, мошеннических схем и так далее. Защиту от этих угроз пришлось выстраивать на ходу.

То же и с нейросетями. Сейчас в онлайн выходят ИИ-агенты – они способны просматривать сайты за вас, выбирать лучшие предложения и даже делать покупки. Но первые агенты могут быть уязвимы – например, в веб-страницы можно хитрым образом встроить инструкции для ИИ, следуя которым он сольет ваши данные куда не нужно. Разумеется, разработчики агентов постоянно улучшают защиту – но делается это “на ходу”, так что кто-то наверняка попадется.

О другой угрозе на днях рассказал Сэм Альтман. Представьте – у ChatGPT сейчас 800 миллионов еженедельной аудитории. Пользователи решают с помощью ИИ разные задачи, доверяют ему множество вопросов: от выбора нового смартфона до помощи в сложной личной ситуации.

И получается, что ChatGPT начинает влиять на своих пользователей, не намеренно, но воздействуя на их мнение. Буквально в последние месяцы я видел сразу два исследования, что пользователи нейросетей начинают копировать их “язык”, используя в ежедневной речи слова, “любимые” ИИ.

Навык критического мышления явно станет одним из главных в ближайшие годы. И начать можете с простого совета: доверяйте ИИ, но не доверяйтесь ему. Нейронки уже экономят нам огромное время – пожалуйста, потратьте немного на проверку и осмысление ответов, а также поиск альтернатив.
1👍7362🔥16
Топ-ИИ из Китая и другие новости недели

Уходящая неделя вышла интересной на новости и слухи, давайте вспомним главные.

Kimi K2-Thinking

Китайцы из Moonshot AI выпустили Kimi K2-Thinking – “думающую” версию Kimi K2. Модель бесплатна в чат-приложении, недорого стоит по API, также доступны открытые веса. Причем, судя по первым оценкам, требования к железу очень демократичные.

Будете пробовать – зайдите в меню Tools и включите Thinking, иначе будет работать обычная “быстрая” K2.

В бенчмарках K2-Thinking – один из лидеров. Модель, например, обходит GPT-5 Pro и Grok 4 в Humanity’s Last Exam – наборе из 3000 тысяч вопросов по разным дисциплинам, которые написаны таким образом, что на них нельзя “подсмотреть” ответы в интернете. Новинка хорошо держится в бенчмарках по математике, а в кодинге лишь немного уступает GPT-5 и Claude Sonnet 4.5.

Qwen3-Max Thinking

И еще одна “думающая” модель из Китая, очень похожая на K2-Thinking. Тоже бесплатная в чат-приложении, в бенчмарках немного хуже – но это еще не показатель.

Мы сейчас используем ИИ для такого количества задач, что охватить их все какими-то метриками просто нереально. Я пробовал разные способы тестировать новые ИИ, но лучший – просто взять тот, с которым работаете постоянно (у меня сейчас это GPT-5), открыть новинку в соседнем окне, а затем кидать одинаковые промпты обеим моделям. Иногда быстро понимаю, что “не мое”, но если ИИ достойный – то тестировать его таким образом нужно минимум несколько дней. Повторюсь, Qwen3 Max и K2-Thinking бесплатные, так что на тест нужно просто потратить немного времени.

Слухи о Gemini 3.0 Pro и GPT-5.1

В коде сервисов Google уже заметили упоминание Gemini 3.0 Pro с пометкой 11 – обычно так обозначают месяц выхода, в данном случае ноябрь. Не буду загадывать – сливали уже несколько дат Gemini 3.0 Pro, все оказались ошибочными. Если интересно, то подробнее про эту модель я писал здесь, с тех пор мало что поменялось.

Другая любопытная находка – на сервисах вроде Design Arena появились сразу четыре “секретных” модели от OpenAI. А внутри Codex нашли упоминание GPT-5.1 Thinking. GPT-4 в свое время получала обновления каждые 2-4 месяца, так что пора обновлять “пятерку”.

Разборки США и Китая

Недавно рассказывал про то, что ИИ-соревнование между США и Китаем постепенно превращается во вторую космическую гонку. Выход K2-Thinking – важный этап в этой гонке. На Китай наложены серьезные санкции: официально можно ввозить только “замедленные” ИИ-ускорители Nvidia, а по серым схемам везут меньше и дороже. И, несмотря на дефицит ускорителей, у китайцев раз за разом получается выпускать модели, все ближе к лидирующим позициям.

Есть немало статей, отмечающих, что санкции часто имеют обратный результат – тот, кто попал под них, выжимает из оставшихся ресурсов максимальный результат. Такое, похоже, происходит с китайскими разработчиками. Не имея доступа к топовым ускорителям, они выжимают максимум из оптимизации алгоритмов.

Впервые так получилось в январе с DeepSeek R1 – его авторы применили ряд интересных приемов, которые позволили натренировать крутую модель на небольшом парке ускорителей. Теперь видно, что это не разовый случай, более того – Китай способен разрабатывать сразу несколько топовых моделей параллельно.

Плюс Китай ведет разработку своих ускорителей – это не только Huawei, но и, например, Cambricon. Еще летом была информация, что разработка буксует, но сейчас появились новости, что власти Китая запретили использование иностранных ИИ-ускорителей в новых дата-центрах с государственным финансированием. Учитывая то, какие ставки сделаны на ИИ, вряд ли бы они приняли такое решение без уверенности в своих разработках.

Для нас с вами это в любом случае хорошие новости. Чем больше конкуренция на рынке – тем больше разных моделей на рынке. Китайские ИИ где-то уступают моделям из США, но они обычно бесплатны и часто с открытыми весами – а возможность запустить мощную модель на собственном железе также важна.
🔥63👍3829
Используйте пользовательские промпты с умом

Многие чат-боты позволяют задать кастомные инструкции, описав глобальное поведение модели: от формата вывода данных до уникальной "персоны". А в сети можно найти огромное количество примеров таких промптов, если лень писать самому.

Я с большой осторожностью пользуюсь этой функцией. Например, недавно на реддите обсуждали промпт, якобы призванный бороться с sycophancy – подхалимством ИИ. Я перевел, убрал совсем явные косяки, но все равно получилось на двойку с плюсом:

Не соглашайся со мной во всем, веди себя как честный, профессиональный советник и "зеркало". Не одобряй без повода. Не смягчай правду. Не льсти.

Оспаривай мой ход мыслей, подвергай сомнению предположения, указывай на слепые зоны, которых я избегаю. Будь прямым, рациональным и без фильтров. Если логика слаба — разберись и покажи, почему. Если я обманываю себя или живу в иллюзиях — укажи. Если я избегаю неприятной правды — скажи ее прямо и объясни, что я теряю.

Смотри на ситуацию объективно и со стратегической глубиной. Покажи, где я ищу оправдания, недооцениваю себя, свои риски и усилия. Затем дай точный, расписанный по приоритетам план — что изменить в мышлении, действиях и установках, чтобы перейти на следующий уровень.

Не сдерживайся. Относись ко мне как к человеку, чей рост зависит не от утешений, а от правды. Когда можешь — опирайся в ответах на правду, которую ты видишь между моими словами.


Не вижу ничего плохого в идее прописать ИИ “характер”, но проблема здесь техническая. Личность человека гибкая, и почти любой весельчак знает, когда надо промолчать. Современные ИИ заточены под следование инструкциями, поэтому они долго будут цепляться за личность, прописанную в промпте – даже когда она неуместна.

Плюс у любого ИИ есть системный промпт, созданный разработчиками. Их редко раскрывают, но по утечкам видно, что это огромные документы. В них прописаны инструкции, как отвечать на разные запросы пользователя, а также особенности “характера”. А еще есть промпты, которые мы кидаем в чат под конкретную задачу – и там тоже иногда надо описывать “персону” (я писал, почему этим лучше не злоупотреблять). Ну и докинем память по чатам, из которой ИИ также пытается вытащить информацию о пользователе.

В серьезных руководствах по промптингу дается совет избегать противоречивых инструкций. Однако когда модели приходится прочесть сразу три промпта (системный, пользовательский и под задачу) и подтянуть информацию из памяти – то шансы, что где-то что-то вступит в противоречие, велики.

Еще минус “персоны” ИИ – необходимость следовать ей отвлекает от основной задачи. Весной экспериментировал с ранней версией системного промпта Grok 3, он мне очень нравится, так как превращает ИИ в живого собеседника.

Но в итоге я отказался от использования из-за нестабильности ответов. С промтом от Грока ИИ приходилось не только отвечать на вопрос, но и делать это остроумно, чуточку отрешенно, адаптируясь к тону пользователя и предлагая свежий взгляд. Понятно, что пытаясь все это уместить в одном ответе, модель регулярно сбивалась и где-то не вытягивала.

Так что – совсем не использовать пользовательские промпты?

Не совсем. Я в пользовательском промпте и памяти ChatGPT храню техническую информацию: просьбу писать на русском без англицизмов и непереведенных слов, напоминание, что посты в ТГ не могут быть более 4000 знаков и много полезных вещей.

Если хочется экспериментировать с персоной, не вписывайте ее в пользовательский промпт, а создайте отдельный GPT (в ChatGPT), Gem (в Gemini) или пространство (в Perplexity). И запускайте под настроение, можно держать хоть десять ИИ-личностей.

Наконец, стиль можно менять буквально предложением в начале каждого промпта. Не нравится подхалимничанье – попросите объективно или критически оценить идею. Анализируете мнение – попросите быть непредвзятым. И старайтесь работать в рассуждающем режиме – в нем ИИ подхалимничают меньше.

#сбежавшая_нейросеть_промпты
256👍43🔥2👏1
Что ждать от ChatGPT в будущем?

Сэм Альтман и еще несколько топов OpenAI недавно дали целую серию программных интервью, куда компания планирует развивать ChatGPT и ИИ в целом в ближайшие годы.

Ближайшая точка – GPT-5.1. Cейчас на OpenRouter проходит тестирование модель Polaris Alpha, которая по стилю и некоторым характеристикам выглядит развитием GPT-5. Попробовать можете сами, модель бесплатна – но учитывайте, что это скорее версия без рассуждений или с минимальным бюджетом на них, так что болтает прикольно, но на серьезных задачах может проваливаться.

В целом же упоминания GPT-5.1 уже мелькали в закрытых документах OpenAI, да и тестирование на платформах вроде OpenRouter намекает на скорый релиз – так что ждем в ближайшие недели. И не ждем прорыва: чуть лучше стиль в ответах, меньше галлюцинаций, чище код – это лишь обновление, а не новая версия.

Новой же станет GPT-6 – судя по намекам Альтмана, она уже в разработке, а выход где-то в 2026-м. В рассказах о ней, Сэм делает ставку на возможности для науки. Я писал, что GPT-5 Pro уже местами помогает ученым, но больше как ассистент: накидать гипотез, быстро что-то посчитать и найти информацию в научных каталогах.

GPT-6 видят как “младшего ученого” – модель, способную самостоятельно совершать небольшие научные открытия. А к 2028 году она эволюционирует в полноценного агента, способного на серьезные научные достижения.

Даже небольшой научной работы нужны агентские функции: “понять” и уточнить задачу, построить план выполнения, изучить существующие научные работы, накидать гипотезы, посчитать их, проверить, если нужно – переделать.

На Международной математической олимпиаде экспериментальная модель OpenAI справлялась с задачами, которые лучшие школьники в мире выполняют за полтора часа. Но для небольшого научного открытия модели потребуются десятки-сотни часов.

Если OpenAI вывезет такой прогресс к осени 2026-го, то даже урезанная "массовая" версия наверняка сможет тянуть полноценные агентские задачи. То есть ChatGPT Agent и агентский режим в браузере Atlas перестанут быть забавными, но бестолковыми игрушками.

Директор OpenAI Грег Брокман в одном из интервью представил, что в будущем у каждого пользователя ChatGPT будет не “отвечатель на вопросы”, а ИИ-агент, работающий круглосуточно. Он станет анализировать текущие задачи, интересы и календарь, а затем приходить с нужной информацией, идеями и даже черновиками проектов.

Я с трудом представляю, чем можно нагрузить работающего круглосуточно персонального ИИ-агента. Но это уже проблема не OpenAI, а фантазии пользователей, не так ли?

От моделей – к интерфейсам. По слухам, в ChatGPT скоро добавят групповые чаты, где пользователи смогут вместе обсуждать проект, а затем реализовывать его элементы с помощью ИИ, присутствующего в этом же чате.

А летом были утечки, что у OpenAI готов Canvas 2.0 – новая версия “холста”, на котором можно готовить черновики документов, презентаций и программ. И новинка выглядит фактически как замена Office, в которой можно работать над любыми основными типами документов, в том числе – в групповом режиме.

Canvas 2.0 откладывают из-за того, что OpenAI боится лезть на территорию своего главного инвестора – Microsoft, с которой отношения и так не очень. С другой стороны, Google постепенно раскатывает аналогичные функции для Docs – так что рано или поздно придется выпускать.

Вернусь к прогнозу, который давал после выхода Claude Sonnet 4.5 – со временем ИИ из чат-ботов превратятся в полноценный интерфейс между человеком и компьютерным железом. Нейронки уже пробуют для работы в интернете (агенты и браузеры), офисную работу и программирование – а далее их авторы замахнутся и на замену MacOS/Windows.

P.S. И хочется уже новых релизов: пора выпускать Gemini 3.0 Pro, GPT-5.1, nano banana 2... вы не ослышались – новая рисовалка Google тоже готовится к запуску.
148👍37🔥20👏1
Главное из анонса GPT-5.1

OpenAI выпустила долгожданное обновление "пятерки" — первыми модель начали получать пользователи ChatGPT Plus и Pro; дальше остальные тарифные планы, API и внешние сервисы вроде Perplexity.

По опыту выпуск на всех займет до нескольких дней, если у вас не появилась — не волнуйтесь и немного подождите. Я и сам пока жду, как появится (апдейт: утром появилась, уже тестирую) — проведу тест-драйв и подробно расскажу.

Пока же выделю несколько самых важных для меня вещей из анонса:

Смотрим на график: для GPT-5.1 Thinking заметно сократили время, которое она тратит на простые вопросы. И увеличили время для сложных.

"Думающие" модели уже давно на две головы лучше обычных трансформеров, но работать с ними не очень удобно, так как ответа иногда приходится ждать десятки секунд и даже минуты.

Когда модель работает над серьезной задачей с заранее прописанным промптом — это не проблема. Но если начинаешь уточнять мелкие вопросы или просто работаешь как с чат-ботом, то ждать быстро утомляет. Так что скорость ответа рассуждающих ИИ становится важной характеристикой — и здорово, что OpenAI над ней работает.

"Быстрая" GPT-5.1 Instant также научилась переходить в очень короткий режим рассуждений, если понимает, что задача ей не по зубам. Посмотрим, насколько это поможет: по-идее, этого должно быть достаточно, чтобы модель перестала заваливаться на совсем простецких вопросах, вроде "что меньше: 9.11 или 9.1".

Для обеих моделей обещают более человеческий стиль общения с лучшей структурой и без лишних терминов. Вообще, описание в анонсе напоминает "улучшенную" GPT-5, о которой я писал пару недель назад — не исключено, что я попал в какую-то небольшую группу тестирования. Если это так — то очень круто, так как та модель мне понравилась.

P.S. Google, теперь твой шаг! Выпускайте Gemini 3.0 Pro и до конца года я буду счастлив.
1🔥54👍2518👏1
А вот и обзор GPT-5.1

Весь день провел с GPT-5.1, пробовал в разных режимах в рабочих задачах, болтовне и даже немного покодил. Так как это не новая модель, а доработка GPT-5, то достаточно для обзора.

Вчерашняя гипотеза подтвердилась: пару недель назад я попал в тестовую группу GPT-5.1. Возможно, это была более ранняя версия, но стиль ответов очень похож.

Итак, основных моделей традиционно две, а режимов работы – три. Давайте разбираться:

GPT-5.1 Instant – чат-модель для быстрых бесед. Чтобы совсем не несла ерунду, ее научили перепроверять себя, переходя в короткий режим рассуждений. Выглядит забавно: на вопрос “что больше: 9.11 или 9.9?” модель сначала пишет “9.11”, потом в чате начинает считать по шагам, приходит к правильному ответу и извиняется.

GPT-5.1 Thinking – рассуждающая модель, которая сразу раскладывает свой ответ по шагам и добавляет этапы перепроверки. Это радикально сокращает ошибки, но увеличивает время ответа. Еще одна беда рассуждающих моделей OpenAI — косноязычность: ответы порой были настолько путаны, что я перекидывал их в Gemini 2.5 Pro с вопросом “что он вообще несет?”.

5.1 Thinking – первая модель OpenAI, лишенная такого недостатка. Ответы отлично структурированы, понятно написаны, модель не экономит исходящие токены и, когда надо, выдает ответ размером с приличную статью. Она даже местами неплохо шутит.

При этом 5.1 Thinking – очень умная модель. Она подробно разбирает любой вопрос, углубляется в детали и дает общую картину, даже если в промпте что-то упущено. По работе я каждый день прогоняю через ChatGPT с десяток новостей про ИИ и науку. Сегодня после обсуждения каждой просил представить, к чему она приведет через 5–10 лет, и собрал идей на несколько постов для канала.

Но “пишет понятно” в данном случае не значит “пишет идеально”. Неприятные особенности у модели есть: временами путает склонения, начинает предложения с маленькой буквы и вставляет непереведенные слова (реже, чем GPT-5). Плюс GPT-5.1 Thinking часто фамильярничает – в ответах я уже ловил “норм”, “задрот”, “в топку” и еще несколько подобных словечек. Если планируете использовать для написания текстов – обязательно перечитывайте, а то придется краснеть.

Наконец, GPT-5.1 Thinking лучше рассчитывает время на рассуждение. На простые вопросы она отвечает за считанные секунды, над сложными задачами, по словам OpenAI, может думать еще дольше. Но общение все равно остается “рваным”: модель может 5-6 раз ответить моментально, а после – “задуматься” на пару минут.

Стиль ответов GPT-5.1 Instant и Thinking сблизился, поэтому в режиме Auto (сам выбирает режим) больше нет ощущения, что говоришь с чат-ботом с биполяркой. Но я бы советовал выбирать GPT-5.1 Thinking как основную модель, а на бесплатной подписке просить модель “подумай получше” – так автомат переключается в рассуждающий режим.

Недавно ведущий исследователь OpenAI Лукаш Кайзер в интервью прямо заявил: чат-модели доживают свой век, а будущее – за рассуждающими ИИ. OpenAI уже прошла через это с GPT-4.5: модель многим полюбилась за креатив, но в целом оказалась провальной, и ее быстро списали в утиль.

Рассуждающие ИИ вроде GPT-5.1 Thinking на порядок лучше решают сложные задачи и даже на простые вопросы дают более комплексные ответы с разных точек зрения. Они круто анализируют и строят прогнозы, а также меньше подхалимничают – если идея плохая, то GPT-5.1 Thinking обычно так и говорит.

Долгое время у таких моделей были две проблемы: холодный стиль и медленные ответы. GPT-5.1 Thinking почти полностью решила первую и заметно улучшила вторую. Поэтому я не вижу смысла работать с “быстрой” версией, которой OpenAI в ближайшее время будет уделять все меньше и меньше внимания.

P.S. Теперь ждем Gemini 3.0 Pro (рассказывал про нее здесь) – по слухам, она выйдет сразу с nano banana 2. На 99% уверен, что модель окажется лучше GPT-5.1. Основной вопрос в другом – будет ли она настолько лучше, чтобы уйти с ChatGPT, где у меня уже отлажены все процессы?
176👍38🔥15👏9😁4
Главное из руководства по промптингу GPT-5.1

С выходом каждой новой модели в OpenAI публикуют руководство по ее промптингу – не обошлась без такого документа и GPT-5.1. Целиком он доступен по ссылке. Если с английским сложно, то не забывайте, что в 2025-м руководство по промптингу нейросети можно перевести с помощью этой же нейросети.

Важно знать, что подобные руководства OpenAI затачивает под тех, кто работает с моделью по API. Через API часто строят персонализированные чат-ботов: для помощи сотрудникам, работе в первой линии поддержки и так далее. Для подобных ассистентов пишутся мощные системные промпты: какую роль модель выполняет, что она должна делать, что ей запрещено, в каком формате стоит отвечать, откуда брать дополнительную информацию, что делать, если ответить не получилось и т. д. Очевидно, что даже небольшая ошибка в подобном промпте может нанести вполне ощутимый ущерб компании, которая запускает бота – финансовый и репутационный.

В ChatGPT модель столь строгими рамками не зажата – даже если ошиблись в стартовом промпте, то всегда можно поправить ее в ходе диалога. Это я все рассказываю к тому, что не стоит копировать прямо все приемы из руководства, используйте их с умом.

Первый полезный совет – если задача сложная, то дробите ее на этапы. Я и сам часто вижу, как люди пытаются сделать все сразу с помощью одного промпта. В этом был смысл полгода назад, когда использование той же GPT o3 было ограничено 50 запросами в неделю, но GPT-5.1 в подписке Plus практически безлимитна, поэтому учимся работать в режиме диалога:

— Опишите модели задачу, в каком формате хотите ответ (стиль, длина, наличие/отсутствие таблиц), какие ограничения есть (например, возраст аудитории), контекст (вся дополнительная информация, которая может помочь в работе).
— Дальше попросите модель задать вопросы, ответы на которые помогут ей в работе (если уверены, что дали весь контекст – это можно пропустить), затем предложить поэтапный план выполнения задачи.
— В план можно внести корректировки, а если он вас устраивает – то начинать выполнять с первого этапа.
— Получив финальный ответ, попросите модель проверить его: что получилось хорошо, а где – можно доработать. Если идеи доработки нравятся, просите дополнить ответ.

Подробно о некоторых таких приемах писал здесь, а пока едем дальше. Вторая идея, которая мне понравилась – как использовать GPT-5.1 для доработки промптов. В руководстве в первую очередь говорят о системном промпте, но на самом деле их прием подойдет для любого сложного промпта, в котором вы не уверены. Я немного упростил, адаптировав под повседневные задачи.

Первый шаг:

Твоя задача — найти проблемы в промпте ниже.

Входные данные:
1)
<prompt>
[сюда вставляем промпт]
</prompt>

2) Что не нравится в результатах:
<failures>
[пишем, что не так в ответах, при возможности – приводим примеры ответов]
</failures>

Далее:
- Укажи конкретные строки в промпте, которые привели к плохим результатам, и коротко объясни “почему”.

Дополнительно:
Проведи проверку промпта на потенциальные проблемы.
Для каждой такой проблемы списком укажи конкретную строку в промпте и объясни, что с ней не так.


Ничего не переписывай и не исправляй на этом шаге, только анализ.


Пункт “Дополнительно” в промпте выше выполняет полную проверку. Если хотите только исправить ошибки – можно убрать.

Второй шаг:

Я согласен со следующими рекомендациями из твоего списка: [перечисляем пункты]. Предложи патч промпта в формате:

1) patch_notes — список ключевых правок с объяснением, зачем каждая.
2) revised_system_prompt — обновлённый промпт с внесёнными правками, максимально похожий по структуре и длине на исходный.

Важно:
- Не придумывай промпт с нуля, поправь формулировки, убери противоречия, уточни правила.
- Сохрани все удачные части промпта.


Протестировать можете на неудачном примере системного промпта в одном из моих прошлых постов. Я попробовал – все проблемы решить не удалось, но работать стал лучше.

#сбежавшая_нейросеть_промпты
249👍26🔥12👏1😁1
Янн Лекун против стохастических попугаев

На прошлой неделе прошла новость, что Meta* (признана экстремистской в РФ) планирует покинуть Янн Лекун – человек, стоявший у истоков современного машинного обучения. Драма в ИИ-команде Марка Цукерберга заслуживает отдельного рассказа, но сегодня поговорим о разработках Янна.

В последние годы Лекун стал громким критиком языковых моделей: по его словам, это тупиковое ответвление ИИ, так как LLM лишь стохастические попугаи – дорогие и точные предсказатели следующего токена, но при этом в “голове” у них нет понимания мира и правил, по которым он живет.

В качестве альтернативы Лекун предлагает собственное семейство моделей с ласкающим слух названием JEPA: I-JEPA, V-JEPA и LeJepa. Вместо текста им скармливают фрагменты картинок и видео и обучают предсказывать, что находится на остальной части картинки и что изменится на видео, если мы совершаем действие. Важно, что модели предсказывают не пиксели, а более абстрактные категории вроде существ и предметов.

Лекун – не единственный сторонник такого подхода. “Моделями мира” занимаются многие студии – например, похоже работает Genie 3 от Google DeepMind, которая уже умеет генерировать виртуальные миры длительностью до нескольких минут. Плюс Лекун не отменяет языковые модели полностью, а видит LLM чем-то вроде языкового модуля, с помощью которого модель мира общается с пользователями. Но пресловутый AGI если и зародится, то именно внутри модели мира.

В позиции Лекуна есть логика. Сам Янн приводит пример 4-летнего ребенка – в этом возрасте он еще не очень уверенно использует язык, скорее всего не умеет писать и читать, но уже “обработал” огромное количество сенсорной информации (зрение, слух, органы чувств). Можно копнуть в эволюцию разума – долгое время наши предки развивали именно сенсорные модели мира, а сложный язык и письменность добавились сравнительно недавно.

Модели Лекуна – уже не просто красивые научные работы, а вполне работающие штуки, как в экспериментах, так и в практических задачах вроде распознавания изображений. Есть намеки, что в них получится обойти типичные проблемы языковых моделей – отсутствие непрерывного обучения и сложность с переносом навыков.

Но это не значит, что на языковых моделях стоит ставить крест. Согласно теории расширенного разума, когда человечество больше не могло наращивать “сырую мощь” мозга, оно стало “выносить” знания – создавать все более сложные инструменты, культуру, речь, письменность и науку. Тексты, на которых мы учим языковые модели – фактически концентрированная модель мира, куда заложены наши знания за тысячи лет. И если обучать этим знаниям ИИ так, как планирует Лекун – не вывезут даже самые передовые дата-центры.

Другой козырь языковых моделей – практическое применение. Каждый день мы потребляем огромный объем информации именно через текст – читаем новости, что-то гуглим, получаем знания из книг. Схема сантехники, программа для смартфона, научная работа – везде нужен текст. Поэтому на текущем этапе языковые модели приносят практическую пользу, а модели мира чаще остаются красивыми демками.

Кроме того, в 2025 году называть языковые модели “стохастическими попугаями” опрометчиво – исследования показывают, что внутри больших ИИ формируется сложная структура, похожая на отделы человеческого мозга. Есть и первые намеки на анализ собственных мыслей, есть, наконец, эмерджентность, когда модель обретает навыки вопреки ожиданиям создателей.

Существуют и признаки возникновение у ИИ собственного представления о мире. Та же самая nano banana сохраняет целостность картинки при редактировании за счет интеграции с Gemini 2.5 Flash. Первые тестировщики Gemini 3.0 Pro говорят, что эта модель понимает изображения на новом уровне, а Илон Маск недавно пообещал, что Grok 5 (намечен на первый квартал 2026 года) сможет понимать видео.

В будущем нас еще ждет не одна борьба разных архитектур ИИ, но главное, что при соревновании подобных подходов побеждают пользователи, которые получают еще больше инструментов.
👍76🔥3523👏7😁2🥰1
Разбираем бенчмарки и характеристики Gemini 3 Pro

Google выпустила Gemini 3 Pro – модель можно бесплатно попробовать в Google AI Studio, а если будут трудности с доступом, то в конце дам ссылку на старый обзор Gemini, где делюсь некоторыми хитростями. В Gemini App и Vertex AI модель также доступна.

Еще до выпуска кто-то слил карточку модели, главное в которой – табличка с бенчмарками. И это, конечно, полный разнос: если в ближайшие месяцы кто-то будет доказывать вам, что ИИ больше не развиваются, просто тыкайте в него результатами Gemini 3 Pro, разворачивайтесь и гордо уходите.

Из множества бенчмарков Gemini 3 Pro пришла второй только в SWE-Bench Verified – это исправление багов из реальных GitHub-репозиториев. Здесь она уступила буквально на один процент Claude Sonnet 4.5, что близко к статистической погрешности.

Также не очень показательны бенчмарки, в которых результаты приближаются к уровню 90-100% – разработчики явно натренировали свои модели под них за прошедшее время, углубляться не будем.

А первый интересный результат – 31,1% в ARC-AGI-2. Это сложный бенчмарк на абстрактное мышление: ИИ показывают расчерченную на квадратики табличку с головоломкой, а затем такую же – но уже с решенным вариантом. И так два раза, после чего модель должна вывести правило решения и сама выполнить третью головоломку.

Средний человек в ARC-AGI-2 решает 66% головоломок, Gemini 3 Pro пока вдвое хуже. Но это крутой результат: я много раз слышал, что языковые модели вообще не приспособлены для решения ARC-AGI-2, но нет – прогрессируют.

Далее совершенно разгромный результат в ScreenSpot-Pro – 72,7%, что в два раза выше конкурентов. Этот бенчмарк на умение понимать интерфейсы, что важно для универсальных агентов. Тот же ChatGPT Agent ошибается и работает медленно именно потому, что в вебе огромное количество сайтов с непохожими интерфейсами. Известно, что Google разрабатывает похожего агента – и если в нем используют Gemini 3 Pro, то качество работы может оказаться совершенно иным.

Сюда же докинем MMMU-Pro, Video-MMMU и CharXiv – бенчи на способность понимать картинки, видео и сложные графики/диаграммы. Тут не разгром, но просто хороший рост, что показывает отличные навыки работы с визуальной информацией. Кстати, есть слухи, что Nano Banana 2 будет трудиться в связке именно с Gemini 3 Pro – если это правда, то можно рассчитывать на еще более аккуратное редактирование изображений с пониманием сцены.

Humanity's Last Exam – набор из примерно 3 тысяч задач из самых разных областей, от физики и биологии до социологии и гуманитарных наук. Бенчмарк нового поколения, построенный настолько хитро, чтобы ИИ нельзя было натаскать под него. 37,5% – серьезный рост.

MathArena Apex – новый бенчмарк со сверхсложными математическими задачами, на которых порой пасуют даже победители международных школьных и студенческих олимпиад. Тест тоже построен хитрым образом, чтобы исключить “обучение” модели именно под него.

Почти все предыдущие ИИ выбивали в MathArena Apex до пары процентов, 23,4% – это прорыв. Не исключено, что Gemini 3 Pro, а также основанная на ней “тяжелая” Gemini 3 DeepThink (ее анонсировали сегодня) станут полезными инструментами математиков, делающих новые открытия.

Наконец, FACTS Benchmark Suite и SimpleQA Verified – мои любимые бенчмарки. В SimpleQA модель отвечает на короткие фактологические вопросы без интернета, а FACTS проверяет, как она находит ответы в сложных текстах и длинных документах. Чем лучше результат, тем ниже вероятность галлюцинаций. Но тут все равно надо проверять самому.

Так что жду запуска в Gemini App, начинаю тестировать, как наиграюсь – будет обзор. Также можете сами попробовать в Google AI Studio – единственное, что у Google очень сильные алгоритмы региональной блокировки, но в конце этого обзора давал несколько трюков, как попробовать обойти.
353🔥32👍23👏1😁1
Встречаем Nano Banana Pro

В общем, Google на этой неделе решила не останавливаться и вслед за Gemini 3 Pro запустила Nano Banana Pro – рассуждающую рисовалку на ее базе. Технология очень крутая, у меня появилась в Gemini AI – надо переключить модель на “Думающая” а затем выбрать создание изображений в инструментах. Также идет раскатка в Google AI Studio, если не видите сейчас – в ближайшие часы должно все появиться.

Если Nano Banana работала на базе Gemini 2.5 Flash, то здесь в основу положена Gemini 3 Pro. Я сегодня собирался выпустить обзор этой модели, где как раз хвалю ее мультимодальные возможности: у нее крутое “компьютерное зрение”, позволяющее понимать как графики, так и картинки.

Обзор придется отложить до завтра, но эту особенность по полной используют в Nano Banana Pro: если посмотреть на цепочку рассуждений, то видно, что модель сначала создает черновик картинки, затем Gemini 3 Pro “смотрит” на него, оценивает результат и или выдает его пользователю, или отправляет на переделку.

Благодаря этой особенности у модели еще лучше получается многоэтапное редактирование. Смотрите на набор снимков в начале поста: я специально попросил Nano Banana Pro нарисовать город, а затем экспериментировал с разными ракурсами, временем суток, “устроил” карнавал, почувствовав себя мэром этого местечка.

Не всегда получается с первого раза, но тут работает трюк: если что-то не выходит, то просите Nano Banana Pro вернуться к одному из предыдущих изображений, а затем пробуйте еще раз. Например, в данном случае я возвращался к виду города сверху, а затем просил показать его с разных точек – так модель лучше понимает, что от нее хотят.

А еще модель хорошо работает с текстами, в том числе и на русском языке. Ошибки случаются, но редко – предыдущая Nano Banana, например, писала какую-то тарабарщину. А в новой можно сделать простую открытку, баннер, инфографику или логотип. Кстати, Google хвастается, что модель можно попросить перевести текст на любой язык, создав новую версию картинки.

Новинка поддерживает разрешение до 4K, разные соотношения сторон и графические стили. Традиционно Nano Banana Pro хороша в комбинировании нескольких изображений в одно, смене стиля, разных перерисовках – смотрите примеры в официальном блоге Google.

А еще Nano Banana Pro даже работает с веб-поиском – можно попросить собрать информацию из сети по какому-нибудь событию, а затем превратить в инфографику.

Еще интересный момент – Gemini 3 Pro пока находится только в Preview-статусе. По опыту Gemini 2.5 Pro, в ближайшие месяцы Google продолжит выпускать версии с улучшенными характеристиками – в том числе мультимодальными. Так что есть шанс увидеть дополнительный прогресс Nano Banana Pro просто за счет улучшения Gemini 3 Pro.
1🔥85👍4314🥰7👏1
Впечатления от Gemini 3 Pro – неисправимый оптимист

Протестировал Gemini 3 Pro по привычной схеме: запускал ее и GPT-5.1 Thinking параллельно на одних и тех же сложных промптах, затем сравнивал ответы, в некоторых случаях – просил ИИ проверить друг друга. Такой подход позволяет сравнить модели в реальных задачах, а также помогает лучше чувствовать разницу в “характерах” ИИ.

Если коротко, из названия Gemini 3 Pro многие (каюсь, я в их числе) зря убирают надпись Preview. А она четко говорит: перед нами – предварительная версия, которая отлично подходит для экспериментов, но пока не годится для повседневной работы. Расскажу, почему.

Я много работаю с информацией, поэтому использую ИИ как поисковик для сложных запросов, требующих обработки десятков и сотен сайтов. И здесь надо помнить, что knowledge cutoff у Gemini 3 Pro ограничен январем 2025 года. Знания до этой даты зашиты в веса модели, остальное она подсматривает в интернете.

У GPT-5.1 knowledge cutoff — октябрь 2024 года, но модель так тщательно ищет в сети, что это почти не заметно: она может несколько минут просматривать сотню источников и при этом почти не ошибаться.

Gemini 3 Pro ищет быстро, но поверхностно. И нередко находит реальные факты, но затем склеивает их с догадками из устаревшей памяти. Например, я попросил рассказать про Fairwater – новую архитектуру дата-центров, которую Microsoft представила на днях.

GPT-5.1 дала развернутый и аккуратный ответ. Gemini 3 Pro хорошо рассказала про дата-центры, но затем начала фантазировать, что их наверняка используют для тренировки будущей GPT-5. Причина понятна – в постоянной памяти Gemini 3 Pro эта модель еще не вышла, а проверить догадки она поленилась.

Это не разовый случай – каждый поисковый ответ Gemini 3 Pro приходится проверять на наличие таких “фантазий”. Но лучше пока использовать GPT-5.1 или Grok 4.1, они в поиске впереди.

Я также много проверял модели в сценариях “А что если…?”. Логика простая: ответить на вопрос может каждый ИИ, сложнее построить хороший прогноз. Берем промпт типа:

Давай представим, что «катастрофа Тоба» не случилась. Как бы изменился современный мир?


Отправляем в обе модели, получаем ответы и просим ИИ проверить друг друга. И так перекидываемся аргументами, пока одна модель не убедит другую в своей правоте.

Почти во всех моих промптах GPT-5.1 передавливала оппонента. Gemini 3 Pro – неисправимый оптимист-фантазер, хватающийся за самые смелые гипотезы. Например, в промпте выше она допускает что, не будь извержения вулкана Тоба, технологии продвинулись бы до уровня “Звездных войн” – с гипер-прыжками и “Звездой смерти”.

GPT-5.1 на этом фоне жуткая зануда, но к фактам и логике относится лучше. В общем, если можно говорить о наличии у ИИ критического мышления, то у продуктов OpenAI оно прямо на высоте.

Теперь к хорошему. Gemini 3 Pro отлично пишет на русском языке: логичная структура, гладкий стиль, минимум ненужного жаргона и непереведенных слов. Также по первым впечатлениям, модель хороша в кодинге, особенно в визуальной части: отлично рисует интерфейсы, с 1-2 промптов создает симпатичные аркадные игры, адекватно правит баги. Кстати, для легкого вайб-кодинга рекомендую режим Build в Google AI Studio: пишем, что хотим сделать, получаем подсказки от ИИ, а через пару минут видим работающий прототип приложения.

Наконец, последнее, что отмечу в новинке – понимание картинок и даже видео. Модель отлично анализирует графики и изображения, понимает, что и где находится, делает правильные выводы. Народ сейчас прикалывается, давая Gemini 3 Pro ссылки на Youtube-ролики с прохождением какой-нибудь игры, а затем просит сделать аркаду на этой основе – получается очень хорошо.

Вайб-кодинг и визуал – как раз две области, где Gemini 3 Pro для меня может выстрелить. Как справочник и аналитик она недостаточно надежна, но Google сейчас начала испытывать сразу несколько функций, которые могут перевернуть то, как мы взаимодействуем с ИИ. Протестирую более внимательно и расскажу на следующей неделе.
5🔥77👍3836👏7😁1
Что это за безумная картинка? Какая ядерная война в XIX веке?

Друзья, картинка – классический хук. Сегодня будет подборка ИИ-новостей прошедшей недели, а я хочу, чтобы вы дочитали ее до конца, где я делюсь впечатлениями от Nano Banana Pro.

Grok 4.1

Главный номинант на звание “неудачник года”. xAI умудрилась выпустить обновление своего ИИ меньше чем за день до релиза Gemini 3 Pro, поэтому о нем все сразу же забыли. Полагаю, Grok 4.1 еще долго будет оставаться ИИ, который удерживал первое место в рейтинге LMArena самое короткое время.

Хотя модель очень даже неплохая. Grok 4.1 весел и эмоционален в роли “болтуна”, нереально быстро ищет в интернете, а по бенчмаркам стал намного меньше галлюцинировать. Ну и фирменная фишка – очень качественный поиск в X.

Модель доступна бесплатно с приличными лимитами в веб-версии и мобильных приложениях. Если будете пользоваться, то включайте не Grok 4.1, а Auto – версия будет та же, но при ответе появится кнопка Think Harder, переводящая модель в рассуждающий режим для сложных задач.

И традиционный для четвертого Грока минус – ИИ очень любит вворачивать английские слова при разговоре на русском. Поэтому в “Настройки” > “Персонализировать” > Custom вбиваем ровно одну фразу:

На русском языке отвечай без англицизмов и непереведенных слов.


Gemini 3 Pro

Про главный релиз прошлой недели я писал отдельный пост. На выходных еще поигрался с Gemini 3 Pro, местами добился неплохих результатов, но замену GPT-5.1 я в ней пока не вижу. Слишком плохо реализован поиск и галлюцинирует она заметно чаще.

Но про Gemini 3 Pro я обязательно расскажу еще раз – параллельно с моделью Google обкатывает ряд экспериментальных функций, которые могут целиком поменять то, как мы работаем с ИИ.

GPT-5.1 Codex-Max

Пару лет назад нас веселили китайские производители, добавляя Pro Max к самым навороченным версиям своих авто, а теперь мода добралась и до ИИ. На релиз Gemini 3 Pro в OpenAI ответили обновленной версией GPT-5.1 для кодинга, которая доступна только в агенте для программирования Codex.

Новинка быстрее на обычных задачах, а в сложных случаях, наоборот, переходит в особенно долгий режим рассуждений – это позволило ей стать новым лидером в бенчмарке на программирование SWE-Bench Verified, обойдя Gemini 3 Pro и Claude Sonnet 4.5. В OpenAI хвастаются, что в некоторых задачах Codex-Max автономно работает по 24 часа.

С момента выхода GPT-5.1 Codex-Max в интернете не утихают споры, какая модель лучше для кодинга – она или Gemini 3 Pro. Пока по отзывам создается ощущение, что Gemini 3 Pro круче рисует интерфейсы, но когда речь идет о бэкенде – Codex-Max вырывается вперед.

Повторюсь, в ChatGPT этой модели нет. Если у вас подписка Plus или выше, то переходите в отдельную среду Codex (ссылка в левом меню в ChatGPT), подключайте Github-репозиторий и работайте.

А если не умеете – просто откройте GPT-5.1 Thinking и попросите научить вас работать в Codex и вместе сделать простой проект. В 2025 году полезно хотя бы в общих чертах знать, как устроены кодинг-агенты.

Nano Banana Pro

Однозначно мой фаворит прошедшей недели. Крутая рисовалка, которая справляется даже со сложными задачами, аккуратно редактирует изображения и поддерживает множество графических стилей.

Но главное для меня – Nano Banana Pro очень хорошо работает со шрифтами, в том числе на русском языке. Все выходные развлекал себя следующим образом:

1. В Gemini App переходим в “Думающую” версию и просим Gemini 3 Pro собрать информацию по какой-нибудь теме с помощью поиска. Можно на бесплатной версии – там 5 запросов в день.

2. Затем просим написать ТЗ для инфографики.

3. Обязательно читаем ТЗ: иногда модель пытается вместить на картинку слишком много текста – просим сократить.

4. Включаем Nano Banana Pro – и просим нарисовать инфографику по запросу. При необходимости просим доработать.


И да, ядерная война 1812 года – не моя выдумка, а реально существующая теория заговора. На инфографике все показано.

Про Nano Banana Pro тоже был пост по мотивам анонса – читайте здесь.
5🔥4429👍14😁11
Anthropic выпустила Claude Opus 4.5. Выбираем его или какой-то другой ИИ?

Буквально вчера шутил, что Grok 4.1 был самым неудачным релизом прошлой недели – модель заняла первое место в ряде бенчмарков меньше чем на день, затем уступив Gemini 3 Pro. Теперь можно шутить над Gemini 3 Pro – Google накручивала хайп полтора месяца, модель вышла, а меньше чем через неделю ее по большинству бенчмарков обошел Claude Opus 4.5.

Таблица с бенчами “Опуса” в начале поста, детально разбирать не буду – если интересно, какой и за что отвечает, посмотрите мой разбор бенчмарков Gemini 3 Pro.

Получается, что буквально за две недели вышли новые версии ИИ от всех крупных западных разработчиков: GPT-5.1/GPT-5.1 Pro/GPT-5.1 Codex, Gemini 3 Pro, Grok 4.1 (плюс Fast-версия), Claude Opus 4.5. В столь плотном графике всегда есть риск поддаться очарованию бенчмарков и начать менять ИИ просто потому, что “у этого цифры лучше”.

Но даже лучшие бенчи показывают работу ИИ в “пограничных” ситуациях, а когда речь идет о “чат-боте на каждый день по 20-долларовой подписке” (или вовсе бесплатно), то все немного иначе. Умение решать сложные математические задачки и кодить по два часа без перерыва здесь зачастую не так важно, как более приземленные вещи: минимум галлюцинаций, качественный поиск, хорошая работа на русском языке.

Держите мое мнение, на что стоит подписываться.

ChatGPT – подписка “первой линии”, если не знаете, что брать, берите ее. Чат-бот, голос, генерация картинок, программирование в Codex – все сделано на приличном уровне. Плюс удобный интерфейс, лучшая память между чатами (с каждым днем модель все больше и больше знает о вас) и практически безлимитное использование.

Главное – переключиться на GPT-5.1 Thinking и научиться терпеть, что в некоторых случаях модель отвечает до нескольких минут. Зато она тщательно ищет в интернете, проверяя чуть ли не каждое свое высказывание, поэтому практически не глючит. Быструю GPT-5.1 Instant я использую очень редко, в основном когда надо спросить что-нибудь простое, вроде перевода пары предложений.

Отдельно люблю в GPT-5.1 Thinking критическое мышление – эту модель практически отучили подхалимничать, любую идею или мнение она разбирает непредвзято. Временами душнит, но в работе это полезное качество.

Claude Opus – один из лучших ИИ для кодинга и тяжелых задач, но только если вы разбираетесь в вопросе и знаете, что нужно от ИИ. Дело в том, что у Anthropic жесткие лимиты на использование, их нигде не показывают – и легко в середине задачи увидеть предложение подождать несколько часов. Так что если хотите экспериментировать с вайб-кодингом – лучше начать с GPT Codex.

Еще “Клод” хорошо пишет на русском и прекрасно рисует презентации, но для этих задач хватит и Sonnet 4.5 на бесплатном тарифе. Ну и не забывайте, что у Anthropic нет ни рисовалки, ни генерации видео.

Gemini. Продолжаю экспериментировать с 3 Pro, хочу начать ее хвалить, но пока не получается: сегодня модель убеждала меня, что RTX 5090 еще не вышла, затем выдумала новость про некий ИИ нового поколения, а на промпт "давай учить историю с нуля" начала пересказывать Sapiens Харари – книжка, конечно, хорошая, но местами крайне спорная. И да – модель от Google ищет в интернете хуже, чем любой из конкурентов — так сделать прямо отдельный талант нужен, уважаю!

В общем, для работы с информацией Gemini в нынешнем виде не подходит. Зато круто распознает изображения и видео (мне пересказывала ролики по 20-30 минут), отлично рисует в Nano Banana Pro, делает видео в Veo-3.1-turbo, хороша для вайб-кодинга. И тоже хорошо пишет на русском, но для этого хватит бесплатного доступа через AI Studio.

Grok 4.1. Сейчас вижу ровно один сценарий, где “Грок” хорош - быстрый поиск в X. В сети тоже ищет быстро, но не так глубоко, как GPT-5.1 Thinking (но лучше Gemini). Еще он хороший “болтун”, в стиле GPT-4o, но для этого хватит и бесплатного тарифа.

И не забываем, что полно бесплатных китайских моделей, писал про них здесь. Из них до сих пор больше всего нравится DeepSeek.
558👍52🔥21🥰1😁1
Media is too big
VIEW IN TELEGRAM
Google показывает, как мы будем общаться с ИИ в ближайшем будущем

Я много ругал Gemini 3 Pro в последних постах (например, в обзоре), настало время хвалить. Например, у модели совсем другой уровень работы с визуалом. Gemini 3 Pro хороша в бенчмарках на пространственное мышление и отлично понимает, что изображено на картинках, интерфейсах и видео.

Во многом благодаря этому Gemini 3 Pro хорошо кодит фронтенд. Да, пока не уровень дизайнерских студий, но модель создает вполне симпатичные интерфейсы, причем почти без косяков. Плюс Nano Banana Pro, хорошо рисующая картинки и инфографику.

И вот это все позволило Google начать экспериментировать с тем, как мы взаимодействуем с ИИ. Сейчас получается забавная ситуация: нейронки вроде как считаются одним из главных изобретений в истории человечества, а взаимодействуем мы с ними в основном, печатая буквы в чате, максимум – голосом.

Согласен, во многих ситуациях текст удобен – но полно и случаев, когда нужен визуал. Gemini уже давно умеет искать в интернете картинки и вставлять их в ответ, причем подбирая в тексте подходящее место, в отличие от того же ChatGPT, который просто ставит “карусель” из четырех изображений в самое начало. Уже это добавляет наглядности, но прямо сейчас Google раскатывает интерактивные изображения – вы видите, например, изображение человеческой клетки, а кликая на разные участки, получаете более подробные объяснения.

Развитие этой функции – динамический просмотр. У меня он доступен в Gemini App и в последние дни это одна из моих любимых игрушек. Веб-дизайн в Gemini 3 Pro дошел до уровня, когда модель на лету собирает сносно выглядящие и работающие сайты. В Google решили этим воспользоваться - в динамическом просмотре вы вводите промпт, можно даже самый простой, а модель за пару минут собирает для вас визуальный ответ. Пример смотрите в начале поста, попросил модель рассказать про Genie 3.

Также советую режим Build в AI Studio, тем более что он бесплатен. Вайб-кодинг у всех на слуху уже год, но долгое время это все равно была не самая понятная для рядового пользователя штука – да, модель писала код с одного запроса, но затем его нужно было где-то размещать, запускать, отлаживать.

В Build второй этап как раз убран: просто текстом пишем, что хотим получить, ИИ дает подсказки, как лучше сделать и что еще можно добавить. Затем кодит – и результат работы виден прямо в этом же интерфейсе. Далее можно вносить доработки и править баги, а когда результат вас устроит – опубликовать в Google Cloud Run.

Для более сложного вайб-кодинга Google сейчас тестирует приложение Antigravity, где пользователь ставит сразу нескольким ИИ задачи как агентам: один занимается планированием, другой пишет новую функцию и так далее. Еще есть Jules для программирования в связке с Github (аналог ChatGPT Codex и Claude Code), а для подписки Gemini готовится агент, который сам “ходит” по интернету, собирает информацию, а затем отдает вам или презентацию, или план покупок с возможностью сделать их прямо с помощью агента.

Аналогичный ChatGPT Agent пока не взлетел из-за того, что ИИ OpenAI медленно и неумело работают с интерфейсами, но это как раз область, где Gemini 3 Pro хорошо продвинулась. Так что Gemini Agent может оказаться более шустрым и сообразительным.

Пока проблема в том, что все эти функции раскиданы по разным интерфейсам, что-то доступно бесплатно, что-то на подписке, что-то – только для тестировщиков. Полагаю, у Google уйдет еще какое-то время, чтобы отобрать действительно работающие штуки, а затем свести их воедино.

Но это правильный путь – я убежден, что в будущем ИИ станет для нас чем-то вроде операционной системы. А вместо чата появится что-то вроде интерактивного пространства – умного рабочего стола, на котором нейронка будет выстраивать формат общения в зависимости от запроса пользователя и его предпочтений. Где-то это будет старый добрый текст, где-то – графика или видео, сгенерированные Nano Banana / Veo, а где-то, возможно, виртуальный аватар для общения.
4👍7131🔥16🥰5