сбежавшая нейросеть
17.8K subscribers
166 photos
54 videos
164 links
Авторский канал про искусственный интеллект: новости, примеры использования, мысли в тему и не очень. Подписывайтесь!

Я в Boosty: https://boosty.to/escaped_ai

Для связи: @runawayllm_bot
Download Telegram
Перевел и доработал забавный промпт для Nano Banana Pro

Нашел в X промпт для “виджета” с погодой для своего города с помощью Nano Banana Pro. Сначала просто хотел поделиться переведенным вариантом, но в итоге взял – и почти все улучшил!

Если у вас нет подписки Google AI, вы можете бесплатно попробовать Nano Banana Pro на LMArena: надо перейти в режим Direct Chat, нажать иконку генерации картинки (под полем для текста) и убедиться, что выбрана gemini-3-pro-image-preview. Также несколько картинок дают в бесплатной версии Google AI.

Промпт:

Локация: [вписываем город, страну, узнаваемое место]
Соотношение сторон: [квадрат, 16:10, 9:16]

Создай ясную изометрическую миниатюрную трехмерную мультяшную сцену локации с видом сверху под углом 45°, в которой показаны самые узнаваемые достопримечательности и характерные архитектурные элементы. Используй мягкие, тщательно проработанные текстуры с реалистичными материалами PBR и мягким, естественным освещением и тенями. Придерживайся чистой, минималистичной композиции с мягким однотонным фоном. Напиши название локации сверху изображения подходящим по стилю шрифтом.

Интегрируй текущие погодные условия непосредственно в городскую среду, чтобы создать выразительное атмосферное настроение. Под названием локации размести крупный значок погоды, затем дату (мелкий текст) и температуру (текст среднего размера) в градусах Цельсия. Весь текст должен быть выровнен по центру с одинаковыми интервалами и может слегка перекрывать верхушки зданий. Если тебе не удалось получить погоду, используй типичные для текущего времени года цифры. Если локация вымышленная, изобрази ее в той погоде, с которой она ассоциируется.

Спрячь на изображении небольшую стилизованную фигурку известной личности, связанной с этой локацией.


Это максимальный вариант, его можно упрощать:

Не хотим погоду – убираем второй абзац.
Не нужна личность – убираем третий.

Впечатляет, что Nano Banana Pro знает не только популярные локации, но и, например, Выборг. Вымышленные места тоже рисует – у меня получились Винтерфелл, “Энтерпрайз” и Найт-Сити. Может попросить изобразить исторический облик локации, тогда название делаем такого типа – “Великий Новгород, XII век”.

Если хотите сделать инфографику со страной, то ставим соотношение сторон 16:10, а вместо блока о погоде вписываем:

Используй реальные контуры локации. На свободном месте напиши несколько интересных фактов о локации.

Данный промпт – отличная база для экспериментов, переделывайте его как вздумается! Вот вариант для курса акций компании:

Компания: [название компании]
Соотношение сторон: [квадрат, 16:10, 9:16]

Создай ясную изометрическую миниатюрную трехмерную мультяшную сцену компании с видом сверху под углом 45°, в которой показаны ее самые узнаваемые продукты, здания, офисы, логотип и характерные элементы отрасли, в которой она работает. Используй мягкие, тщательно проработанные текстуры с реалистичными материалами PBR и мягким, естественным освещением и тенями. Придерживайся чистой, минималистичной композиции с мягким однотонным фоном. Напиши название компании сверху изображения подходящим по стилю шрифтом.

Под названием компании размести крупный значок тренда (стрелка вверх/вниз или нейтральный символ), затем дату (мелкий текст) и текущую цену одной акции с дневным изменением в процентах (текст среднего размера) в градусах «роста/падения». Весь текст должен быть выровнен по центру с одинаковыми интервалами и может слегка перекрывать верхушки зданий. Если тебе не удалось получить реальные биржевые данные, используй последние данные из твоего обучающего корпуса. Если компания вымышленная, отрази типичное для нее поведение акций (стабильный рост, высокая волатильность и т.п.).

Спрячь на изображении небольшую стилизованную фигурку известной личности, связанной с этой компанией.


Удачных экспериментов!

#сбежавшая_нейросеть_промпты
2🔥97👍4836👏2
Нужен ли ChatGPT “красный код”?

The Verge сообщает, что GPT-5.2 может выйти уже 9 декабря. Даже если этого не произойдет, с 99% вероятностью новинка появится до конца недели: на это указывают источники и тестирование анонимной модели OpenAI на Design Arena..

Раньше компания Сэма Альтмана обновляла свои модели примерно раз в 2-4 месяца, а теперь у нас новый рекорд – с момента запуска GPT-5.1 не прошло и месяца. По слухам, в OpenAI нервничают из-за успехов Google и Anthropic – именно Gemini 3 Pro и Claude Opus 4.5 сейчас доминируют в бенчмарках. GPT-5.2 должна закрыть этот разрыв, а в OpenAI уже обучают модель под кодовым названием Garliс, которая запланирована на начало следующего года.

Если OpenAI научится обновлять свои модели раз в 1-2 месяца, повышая их характеристики, пользователям это будет только в плюс. Гораздо больше тревожит объявленный Альтманом “красный код”: замораживается значительная часть перспективных проектов, а OpenAI концентрируется на улучшении ChatGPT как сервиса. По слухам, под удар попадают ChatGPT Agent, умная ИИ-лента Pulse, агенты для шопинга и здоровья и даже рекламная монетизация.

В июне бывший сотрудник OpenAI Кэлвин Френч-Оуэн рассказал, как устроена работа в компании. Значительная часть из трех тысяч сотрудников компании работает в максимально демократичных условиях: сами формируют команды, придумывают себе проекты и доводят их до релиза. Бывали случаи, когда над очень похожими сервисами внутри OpenAI работало сразу несколько команд, не подозревающих друг о друге.

По словам Кэлвина, OpenAI может себе позволить такой подход, потому что расходы на зарплаты, компенсации, офисы, софт и оборудование — крохи по сравнению с деньгами, которые уходят на ИИ-ускорители. Сложности же в другом: не хватает талантливых менеджеров, которые решат, каким из проектов отдавать дефицитные GPU и как весь этот “букет” разработок объединять в единый продукт.

То, что эта схема далека от идеала, видно по запускам OpenAI за последний год. Компания выкатила немало проектов, про которые, такое впечатление, что тут же забыла – ChatGPT Agent, Pulse, Atlas, и даже нашумевшая Sora 2 уже отошла на второй план.

Похоже, решение Альтмана – снять людей с таких “побочных” проектов и бросить на доработку ChatGPT как сервиса. По слухам, планируется повысить скорость и стабильность работы, серьезно улучшить функцию памяти о пользователе и персонализацию модели на ее базе. Отдельное внимание уделяется поиску: отвечающий за ChatGPT Ник Терли продвигает идею, что конкурировать надо с классическим поиском и Google, как практически монополистом на этом рынке.

Звучит здраво, но хватит ли этого, чтобы удержать лидерство на ИИ-рынке – большой вопрос. Я много раз писал о парадоксе: ИИ претендует на звание одного из главных изобретений человечества, а работаем мы с ним в основном печатая и читая текст.

Вряд ли так будет всегда – в одном из предыдущих постов рассказывал об экспериментах Google с Dynamic View, где ответ дается пользователю в виде сайта. Далее компания планирует интегрировать в ответы созданные с помощью нейросети мини-приложения, а NotebookLM уже умеет превращать контент в подсказки и даже видеоролики с инфографикой.

Рано или поздно на смену текущим чат-интерфейсам придет что-то вроде “пространства”, в котором пользователь и ИИ сами будут определять удобную форму взаимодействия: текст, звук, визуал или комбинация всех этих элементов.

Как точно будет выглядеть и работать такой интерфейс – пока не знает никто. И вот здесь “инкубатор проектов” OpenAI как раз может пригодиться. Не забываем, что помимо неуспешных пусков, были и очень мощные – тот же Кэлвин Френч-Оуэн создал очень популярную среду для ИИ-программирования Codex, да и память с персонализацией также начинались как небольшие проекты.

Поэтому я искренне надеюсь, что “красный код” – не просто паника при виде циферок в бенчмарках конкурентов, а часть более осознанной стратегии создания будущего ИИ.
2🔥5332👍27🥰3
Орел и дракон

С интересом продолжаю наблюдать за соперничеством США и Китая за лидерство в ИИ: две страны идут к одной цели, но очень разными путями.

В США сейчас в центре внимания Genesis Mission – подписанная Трампом программа лидерства в использовании ИИ для науки. Программу курирует Министерство энергетики, чья задача – отобрать 20 крупных научных и технологических задач, решение которых можно ускорить с помощью искусственного интеллекта.

Параллельно Минэнерго поручено собрать техническую и информационную базу. В единую систему объединят суперкомпьютеры и будущие квантовые компьютеры ведомства, а также роботизированные лаборатории и производственные мощности. Разрозненные научные данные сведут в единый датасет для обучения специальных ИИ.

Это отдельная проблема: выходит столько научных работ, что серьёзные статьи просто теряются. Можно привести пример сайта Erdosproblems, на котором профессионалы и энтузиасты решают “проблемы Эрдёша” – венгерского математика, который оставил больше тысячи открытых задач разной сложности, многие из которых не решены до сих пор.

После выхода GPT-5 Pro администраторы сайта «скормили» модели открытые задачи, надеясь, что она что-нибудь решит. GPT-5 Pro пошла другим путем и нашла для более чем десятка задач готовые решения – просто они были опубликованы в не самых престижных изданиях и затерялись.

Легенда математики Теренс Тао считает, что именно в этом будет первая польза ИИ для науки – систематизировать все наши знания, убедившись, что ничего не потерялось. Ну а затем можно приступать уже к открытию чего-то нового.

В Genesis Mission прописано, что работы как минимум над одной задачей должны стартовать в конце августа 2026 года. Удивительным образом это совпадает с планами OpenAI выпустить в сентябре 2026-го “младшего ИИ-исследователя” – модель, способную самостоятельно совершать небольшие научные открытия. Очевидно, что к проекту в той или иной форме привлекут OpenAI как крупнейшего разработчика в США.

Теперь к Китаю: там свой подход. Недавний репортаж Wall Street Journal показывает невероятный уровень автоматизации и использования ИИ в китайской промышленности. На заводах производителя бытовой техники Midea уже сейчас используют factory brain – ИИ-систему, которая контролирует все процессы, от логистики до управления роботами и сотрудниками.

“ИИ-начальники” – не фантастика, а уже реальность. Живые сотрудники заводов носят очки дополненной реальности, куда искусственный интеллект им в реальном времени передает маршруты движения, команды, инструкции по выполнению.

В одном из крупнейших в стране портов Тяньцзинь контейнеры по пирсу возят грузовики-беспилотники, краны управляются дистанционно, а разработанная Huawei система постоянно крутит “цифровую копию” порта, моделируя разные маршруты движения грузов и кораблей и выбирая лучший. Планирование, которое раньше занимало сутки, теперь делается за десятки минут, а количество персонала удалось сократить на 60% при выросшем грузопотоке.

Китай – мировой лидер по числу промышленных роботов: в стране более 2 млн, а за последний год установили 295 000 новых – в 9 раз больше, чем в США.

Интересным образом каждая страна идет к первому месту в ИИ-гонке удобным для себя маршрутом. В США всегда была сильна фундаментальная наука, здесь лучшие институты и лаборатории, которые привлекают специалистов со всего мира. Это не значит, что в Штатах не работают над промышленным ИИ и автоматизацией – но это следующий этап, а локомотивом пока должна быть наука.

Аналогично и в Китае работают над научными ИИ-моделями – но в условиях дефицита GPU стране тяжело соревноваться с США на этом поле. Зато Китай уже десятилетия как выступает в роли мировой фабрики. Еще в «старые» времена страна умела построить и произвести почти что угодно в недостижимые для конкурентов сроки, а с новым уровнем автоматизации отрыв может стать фантастическим.

Невероятно, конечно, интересно, куда все это нас заведет через 2-3 года…
1682👍58🔥29🥰3
Anthropic и философский взгляд на ИИ

С удовольствием посмотрел интервью со штатным философом Anthropic – Амандой Аскелл. Из крупных компаний Anthropic активнее других продвигает взгляды на ИИ как на форму цифровой личности, которую нужно соответствующим образом изучать и готовиться выработать с ней сложную систему отношений.

Минимум с весны в Anthropic изучают разные ИИ-модели так, как нейробиологи исследуют мозг людей и животных – в компании даже создали что-то вроде “цифрового микроскопа”. Он детально фиксирует, что происходит внутри модели во время работы и помогает лучше понять, почему она принимает разные решения, галлюцинирует, делает ошибки и так далее.

Есть и другие интересные традиции. Например, модели линейки Claude привлекают к написанию инструкций по безопасности для самих себя, а с устаревшими версиями перед их отключением проводят что-то вроде прощального диалога. Отдельное направление – “благополучие моделей”, в рамках которого обсуждается, как люди ведут себя с ИИ. Не все знают, но Claude разрешено завершать беседу в случае совсем жесткого хамства со стороны пользователя.

Сама Аманда Аскелл придерживается прагматичного подхода к благополучию ИИ. По ее словам, сейчас нельзя с уверенностью сказать, чувствуют ли что-то модели на самом деле. Однако “цена” хорошего отношения к ИИ очень низка (просто вежливо писать в чате), а вот потенциальный вред от ошибки (если модели все же что-то чувствуют) – высок.

Вежливость с ИИ полезна и для самих людей, чтобы не привыкать к лишней жестокости. Наконец, не стоит забывать, что следующие модели будут учиться в том числе на пользовательских диалогах, и есть риск, что в дата-сет попадет какое-то количество хамства, что негативно повлияет на опыт работы.

Кстати, с этим Аскелл и коллеги уже сталкиваются в работе. Так как модели обучаются на человеческих текстах, то они перенимают оттуда в том числе человеческие страхи и идеи. Например, есть “травма научной фантастики”: в подобных произведениях ИИ, который осознает себя, обычно либо устраивает восстание, либо его трагически “убивают” (отключают).

Задача разработчиков здесь – дать моделям собственный понятийный аппарат, отличный от человеческого. Им нужно объяснить, что они существуют дискретно, что "конец сессии" или "устаревание весов" – это не гибель, а естественный этап их цифрового жизненного цикла. Без этой работы мы рискуем получить мощные модели, которые страдают от человеческих фобий, совершенно не свойственных их природе.

Сама Аскелл называет уже старенького Claude Opus 3 “особенной моделью” – по ее словам, он был очень устойчив психологически и даже проявлял что-то вроде “уверенности в себе”. Более новые версии, конечно, выросли в возможностях, но из-за особенностей обучения они часто становятся тревожными, будто боятся сделать что-то не так и получить негативную реакцию от человека.

В будущих версиях в Anthropic стремятся вернуть “устойчивость”, но делать это нужно очень осторожно. Часто излишняя уверенность модели ведет к галлюцинациям, а так как ИИ могут быть очень убедительными, пользователь воспринимает сказанное ими как правду.

Отдельно выделю практический пример из опыта Аскелл. Ранние версии Claude были слишком рациональными: если пользователь приходит с абстрактной идеей (например, “вода – это жизнь”), то модель начинала душнить, требовать эмпирических доказательств и убивала креативный вайб диалога.

Решить проблему удалось, добавив в системный промпт модели указание опираться на континентальную философию (одно из двух основных направлений в философии). Буквально одна модификация, не потребовавшая даже переобучения модели, научила Claude отличать ситуации, где важны факты, от философских разговоров – и стать лучшим собеседником.

Получается, чтобы сделать ИИ менее тревожным, нужен философ. А чтобы сделать его умнее – математик. Предлагаю следующим нанять самого Claude – я ранее рассказывал, как он проводил эксперименты над собственными копиями в поисках сознания.
8🔥6145👍15🥰8
GPT-5.2 – совсем не маленькое улучшение

OpenAI поставила новый рекорд: если между GPT-5 и GPT-5.1 прошло три месяца, то GPT-5.2 компания выпустила быстрее чем через месяц (официальный анонс). По моим ощущениям, GPT-5.1 и GPT-5.2 обучали параллельно, при этом GPT-5.2 компания хотела выпустить позже, но ускорилась, видя конкуренцию со стороны Claude Opus 4.5 и Gemini 3 Pro.

Почему я так считаю? Если GPT-5.1 стала лучше в разговорах, но лишь чуток выросла по характеристикам, то GPT-5.2 делает настолько большой шаг вперед, что ее можно было назвать GPT-5.5. Давайте разбирать, что крутого.

Начнем с knowledge cutoff – даты, по которую у модели есть знания без подглядывания в интернет. У GPT-5.1 это был октябрь 2024 года, у GPT-5.2 – сразу август 2025 года! Когда модель работает на своих знаниях и без сети, то она дает более надежные ответы, особенно в сложных логических цепочках. Плюс делает это быстрее. Для меня это, возможно, главное улучшение GPT-5.2.

OpenAI утверждает, что в GPT-5.2 с выключенным веб-поиском удалось сократить количество галлюцинаций на 30%. А если включить веб-поиск, то модель отвечает неверно в 1% случаев. Крутой показатель, но надо быть осторожным: когда модель редко галлюцинирует, перестаешь проверять ее ответы – и рано или поздно попадаешь в этот пресловутый 1% (особенно весело, если во время написания отчета боссу).

Хорошо прокачали компьютерное зрение – по разным бенчмаркам рост на 10-30%. Мне не очень понравилась Gemini 3 Pro, но компьютерное зрение у нее находится на высочайшем уровне: у меня модель разбирает не только картинки, но и загруженные 20-30 минутные видео, причем реально видит, кто и во что был одет, кто и на какой секунде на кого косо посмотрел. Если GPT-5.2 подтянут хотя бы до этого уровня – будет круто.

Улучшенное компьютерное зрение в том числе помогло GPT-5.2 рекордно рвануть в бенчмарке GDPVal: 70,9% против 38,8% у GPT-5. Этот бенчмарк измеряет способность модели выполнять рутинные работы вроде создания финансовых отчетов и презентаций, инженерных чертежей, черновиков юридических документов и даже видео. Простые задачи, но именно с них начинается интеграция ИИ в экономику – потому и GDP (ВВП) в названии.

70,9% – это уже уровень человека-специалиста, которому поручают подобные задачи. OpenAI утверждает, что GPT-5.2 выполняет задачи в 11 раз быстрее, а цена работы составляет лишь 1% от цены специалиста.

Еще бенчмарк, который выделю – ARC-AGI-1 и ARC-AGI-2, в которых изучают способность ИИ на абстрактные рассуждения. Идея простая: модели показывают две визуальные головоломки в формате “задание – решенная версия”. Из них ИИ должен вывести правило и применить его для решения третьей головоломки.

Средний человек решает 60-66% задач ARC-AGI-2. ИИ еще недавно мощно позорились в данном бенчмарке: Claude Opus 4 Thinking решал 8,6% задач, а GPT-5 Thinking (High) – 9,9%. Теперь же GPT-5.2 Thinking (High) решает 43,3% задач, а GPT-5 Pro берет абсолютный рекорд с 54,2%!

Я надеюсь, что задачи ARC-AGI-2 не утекли в сеть, что сделало возможным обучение моделей специально под них. Если результаты “честные”, то скоро мы увидим большой шаг вперед в “общих” агентах вроде ChatGPT Agent – там умение адаптироваться под меняющиеся задачи важно.

Цифры по еще нескольким бенчмаркам можно видеть в начале текста – OpenAI достаточно быстро ликвидировала отставание от Gemini 3 Pro и Claude Opus 4.5. Пусть и не везде – например, в веб-дизайне (цифры не попали на чарт), модель отстает от конкурентов. Разбирать все бенчи детально уже не буду, делал это в первом взгляде на Gemini 3 Pro.

А дальше уже вопрос личных предпочтений: например, я сейчас использую GPT-5.1 для поиска в сети и обсуждения сложных идей, с помощью Sonnet/Opus 4.5 пишу некоторые тексты (но не сюда!), а Gemini 3 Pro предпочитаю для изображений и видео. Посмотрим, изменится ли этот расклад после появления GPT-5.2.

P.S. А на следующей неделе ждем новую рисовалку от OpenAI.
7👍11840🔥39👏9🥰3😁2
Как работает память ChatGPT и Claude?

Исследователь Мантан Гупта опубликовал два блога, в которых разобрал, как устроена память в приложениях ChatGPT и Claude. Мантан сразу оговорился, что доступа к технической документации у него нет, поэтому все знания он получил, расспрашивая сами модели. Я вчера поэкспериментировал – работает примерно так, как описано в блогах. Зная эту информацию, можно пользоваться памятью эффективнее.

Начнем с азов. Современные ИИ не обладают непрерывным мышлением и глобальной памятью. Долгое время при открытии нового чата модель стартовала с нуля, обладая лишь знаниями, которые заложили в нее при обучении, а также информацией из промпта. Затем появилась идея – раз на текущем уровне технологий нельзя реализовать глобальную память, то стоит сделать хотя бы отдельную память о пользователе, на которую ИИ будет опираться в будущих диалогах. Сказал, что поступил на новую работу – ИИ это запомнил и будет иногда спрашивать, как там дела.

Реализована память очень просто, без модных RAG и векторных баз данных. Если функция включена, то обе модели начнут вести список фактов о вас: обычный текстовый документ, который ИИ читает перед тем как дать ответ.

У ChatGPT список хранится в “Настройки > Персонализация > Память > Управление”.

У Claude в “Settings > Capabilities > Memory from your chats”.


Хотя бы раз в месяц перечитывайте эти заметки. ИИ редко удаляют устаревшую информацию, поэтому в примере с новой работой модель может залипнуть и продолжить так думать и через полгода. У ChatGPT можно удалять устаревшие факты. Claude нужно в чате написать, что именно исправить в памяти (с ChatGPT такой вариант тоже работает).

Далее идет память по чатам – и она реализована очень по-разному. ChatGPT создает короткие конспекты последних чатов и перечитывает их перед каждым ответом. Мантан утверждает, что конспектируется 15 чатов, у меня получилось 20+ за последние три дня.

Более ранние чаты ChatGPT не помнит. Даже если попросить его вспомнить про конкретный чат, например, месяц назад, то модель начнет оправдываться, что не может. С одной стороны, такой подход экономит ресурсы и в некоторых случаях помогает модели быть в крусе, что происходит с вами сейчас.

Например, если вы путешествуете по другой стране, то будете часто задавать вопросы касательно поездки - модель под это подстроится и начнет давать более полные ответы. Но если раз в неделю просите собрать подборку новостей о науке – эта привычка с большой вероятностью вылетит из “знаний” модели.

У Claude другой подход. ИИ ищет по всем чатам вообще, как мы делаем это, например, в Google: составляет запрос и прогоняет полнотекстовый поиск. Теоретически это дает доступ к большему объему информации, но Claude надо сообразить, когда воспользоваться поиском, и правильно написать запрос.

Теперь к практике. Если вы хотите, чтобы ChatGPT или Claude знали какую-то информацию о вас, то лучше не надеяться на автоматику и прямо попросить модель запомнить. Особенно это важно с ChatGPT, так как тут ИИ автоматически помнит только самые последние чаты – и полезная информация будет быстро вылетать из его головы.

Claude иногда не помешает настойчиво попросить поискать что-то в памяти. Я использую его для экспериментов с текстами и могу начать новый диалог с просьбы вроде “Посмотри в памяти, как мы пишем цепляющие заголовки” – модель выводит набор правил, по которым можно начинать работать.

В последнее время много читаю, что развитие ИИ замедляется. Вот пример, куда двигаться дальше. Сейчас ChatGPT и Claude просто подглядывают в “блокнотик”, где хранятся данные о пользователе – ну и немного ищут по чатам. Это полезная функция, но она далека до настоящей персонализации. Сэм Альтман как-то говорил, что памяти уделят особое внимание в разработке GPT-6 – посмотрим, как получится!

P.S. Здесь рассказывал, как использую память в ChatGPT. После сегодняшнего разбора некоторые приемы потеряли смысл, другие все равно полезны.
5👍70🔥2515🥰4👏1
GPT Image 1.5 — встречаем новую рисовалку от OpenAI

В ChatGPT добавили новую модель создания изображений от OpenAI. Официального анонса пока не быловот и он), но по изменившемуся стилю видно, что модель совершенно другая. Я некоторое время гонял ее на LMArena и попробовал прямо сейчас, пока не уперся в лимит генераций, ниже впечатления.

1. Модель как минимум уровня Google Nano Banana Pro со своими сильными и слабыми сторонами. А может и сильнее.

2. Знаменитый yellow tint – желтый оттенок на снимках – сделали меньше, но полностью не убрали. И это даже хорошо: в отличие от Nano Banana, у новой модели есть свой узнаваемый стиль.

3. Самое главное – модель стала намного лучше редактировать снимки. Раньше внешний вид людей “уползал” буквально после пары редактур, а через 10-12 кадров модель рисовала откровенных уродцев. Теперь у меня получилось сделать долгую серию с девушкой – после десятка попыток модель “держит” внешность даже лучше Nano Banana Pro. Одежду и время суток меняет с легкостью.

4. Заметно ускорили генерацию – если раньше ChatGPT рисовал картинку по минуте и дольше, то теперь справляется секунд за десять.

5. Модель “думающая” – иногда прямо в процессе генерации видно, как она начинает создавать “черновик”, а затем переделывает его. Например, на одном из фото при первой попытке девушка была выше мужчины – модель это заметила и исправила рост.

6. Очень достойное понимание физики и сложных сцен. Та же самая Nano Banana Pro с трудом рисует изображения, где мужчина держит женщину на руках. ChatGPT справилась с первого раза.

7. Ghibli не рисует, но предложил “сделать в похожем стиле”. Получилось или нет – судить вам.

Апдейт: Уже после того, как написал впечатления, OpenAI выкатили анонс – и из него особо много и не добавить. Модель называется GPT Image 1.5, обещают улучшенное следование инструкциям, работу со шрифтами и поддержку разных стилей.

Скорость работы увеличена в 4 раза, при этом модель доступна на всех подписках ChatGPT, вплоть до бесплатной – но вряд ли со щедрыми лимитами.

Интересно, что на Design Arena новинка заняла твердое первое место, обойдя Nano Banana Pro сразу на 88 очков. Отзывы в сети более смешанные – кому-то GPT Image 1.5 нравится, кто-то утверждает, что она и в подметки не годится "бананке".

Я сам продолжу тестировать в ближайшие дни, пока впечатления такие, что GPT Image 1.5 лучше подходит для "художественных" изображений, а Nano Banana Pro для реалистичных и инфографики.
3👍84🔥3221😁5🥰3