Все-таки у меня в приле стоит старая модель генерации GPTImage (почему так?), а вот на сайте Соры довольно быстро сгенерились одновременно две картинки, очевидно, на новой модели.
Вот здесь конкуренция наблюдается. ОпенАИшная модель намного точнее и узнаваемее показала мой родной город. Это конечно, все еще тёплая рисованная иллюстрация, но уже намного лучше, чем в прошлой версии.
Вот здесь конкуренция наблюдается. ОпенАИшная модель намного точнее и узнаваемее показала мой родной город. Это конечно, все еще тёплая рисованная иллюстрация, но уже намного лучше, чем в прошлой версии.
🔥1
GPTImage 1.5 vs Nano Banana Pro, ч. 2
Слева GPT, справа Banana. Обе сгенерены за 18 секунд, но джипити дала за это время две картинки, а банана одну. НО: джипити генерилась на сайте Соры (максимально 2 картинки за раз), а банана в приложении (1 картинка за раз); а если бы банана генерилась на полном аналоге сайта Соры — во Флоу, то там было бы 4 картинки за раз. НО: Флоу не дает банане генерить известные лица, а вот в приле ок.
Промпт:
Вердикт: GPTImage 1.5 сильно стилизует живые фотки.
Слева GPT, справа Banana. Обе сгенерены за 18 секунд, но джипити дала за это время две картинки, а банана одну. НО: джипити генерилась на сайте Соры (максимально 2 картинки за раз), а банана в приложении (1 картинка за раз); а если бы банана генерилась на полном аналоге сайта Соры — во Флоу, то там было бы 4 картинки за раз. НО: Флоу не дает банане генерить известные лица, а вот в приле ок.
Промпт:
Президент Казахстана Токаев вместе с Трампом на американских горках
Вердикт: GPTImage 1.5 сильно стилизует живые фотки.
🔥1
GPTImage 1.5 vs Nano Banana Pro, ч. 3
Посмотрим, что у нас по инфографике. Слева GPT, справа Banana. Тут у GPTImage самый сильный прогресс. Я бы сказал, что альтмановцам удалось догнать Гугл. Очень неплохой результат, текст консистентен. НО: 2 картинки за 50 сек (Sora) vs 4 картинки за 20 сек (Flow). Правда, Флоу автоматически переводит промпт на английский, по сему и инфографика на английском. В приле за те же 20 сек одна инфографика на русском, аналогичного качества.
Промпт:
Посмотрим, что у нас по инфографике. Слева GPT, справа Banana. Тут у GPTImage самый сильный прогресс. Я бы сказал, что альтмановцам удалось догнать Гугл. Очень неплохой результат, текст консистентен. НО: 2 картинки за 50 сек (Sora) vs 4 картинки за 20 сек (Flow). Правда, Флоу автоматически переводит промпт на английский, по сему и инфографика на английском. В приле за те же 20 сек одна инфографика на русском, аналогичного качества.
Промпт:
Инфографика, показывающая работу нейросетевой архитектуры трансформер в сравнении с архитектурой нейро-символической сети
🔥1
GPTImage 1.5 vs Nano Banana Pro, ч. 4
С рекламными креативами для Инстаграма забавное. GPTImage клепает безбожно устаревшие коллажи, в то время как Nano Banana Pro воспринимает задачу не просто как создание продающей картинки, но как раскадровку под готовый сторис. Неплохо-с.
Промпт:
С рекламными креативами для Инстаграма забавное. GPTImage клепает безбожно устаревшие коллажи, в то время как Nano Banana Pro воспринимает задачу не просто как создание продающей картинки, но как раскадровку под готовый сторис. Неплохо-с.
Промпт:
Креатив для Инстаграма с рекламой батиного супа
😁2
GPTImage 1.5 vs Nano Banana Pro, ч. 5
А чё со стилизацией? Бодро! На первой картинке референс, на второй Банана, на третьей ГПТ. И Банана и ГПТ точно передали референс, но Банана буквально перенесла артефакты на лицах и небольшую шакальность. ГПТ же честно передала референс, избавившись от артефактов.
Промпт:
А чё со стилизацией? Бодро! На первой картинке референс, на второй Банана, на третьей ГПТ. И Банана и ГПТ точно передали референс, но Банана буквально перенесла артефакты на лицах и небольшую шакальность. ГПТ же честно передала референс, избавившись от артефактов.
Промпт:
Сделай такой же постер с Сон Хын Мин в актуальной на сегодня форме ФК «Тоттенхем Хоттспур» и Мохамед Салах в актуальной сегодня форме ФК «Ливерпуль».
🔥1
Плотно поработав несколько часов с GPT Image 1.5 (а это десятки генераций), все-таки понял, что это минорное развитие предыдущего дебюта. Единственное, в чем хороша модель — в стилизованных репортажных фотографиях и инфографике. И то, не всегда так же хорошо, как Банана. В остальном это та самая GPT Image 1, что очень печально.
Спустя две ответки Google очевидно, что OpenAI не смогли изменить ситуацию и остаются в роли догоняющего.
Такие дела.
Спустя две ответки Google очевидно, что OpenAI не смогли изменить ситуацию и остаются в роли догоняющего.
Такие дела.
❤1
Forwarded from Силиконовый Мешок
Под конец года голова уже кипит от всех этих отчетов, графиков и бенчмарков. Я реально минут пять изучал эту картинку в надежде понять, какие показатели моделей она визуализирует.
А потом минут десять громко ржал и нервно хихикал, поняв, что это «бенчмарк версий». Короче, ChatGPT с версией 5.2 рвет всех в клочья.
Ну а с другой стороны - этот график символизирует 2025 год. Столько бенчмарков, как в этом году, еще никогда не выходило. С пятницей!
А потом минут десять громко ржал и нервно хихикал, поняв, что это «бенчмарк версий». Короче, ChatGPT с версией 5.2 рвет всех в клочья.
Ну а с другой стороны - этот график символизирует 2025 год. Столько бенчмарков, как в этом году, еще никогда не выходило. С пятницей!
😁4🤣2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Роботы Unitree в подтанцовке, где-то в Китае. Через два года везде. Вроде прикольно, но всё-равно криповато как-то :)
This media is not supported in your browser
VIEW IN TELEGRAM
>2017, нейрослоп с психоделическими картинками
>2019, нейрослоп с продолжениями стишков
>2022, нейрослоп который умеет чатиться
>2023, шестипальцевый нейрослоп
>2024, нейрослоп который только двигает пиксели
>2025, консистентный 10-секундный нейрослоп со звуком в 1К
>ВЫ ЗДЕСЬ
>2026, консистентный 30-секундный нейрослоп с голливудскими актерами
>2027, нейрослоп, стримищийся на Нетфликсе
>2028, трехчасовой нейрослоп, взявший оскар
>2029, диснеевская нейрослоповая киновселенная с супергероями, которых играют умершие актеры
>2030, 5 432 авторские нейрослоповые версии Драйвера, где Гослинг не умер разными способами
>2031, 17 847 авторских нейрослоповых версий ГТА 7
>2030-е, нейрослоповые сериалы/кино/игры/порно с вашим собственным участием в главной роли
>2040-е, нейрослоповая сингулярность, во вселенной больше не существует не нейрослопа
>2019, нейрослоп с продолжениями стишков
>2022, нейрослоп который умеет чатиться
>2023, шестипальцевый нейрослоп
>2024, нейрослоп который только двигает пиксели
>2025, консистентный 10-секундный нейрослоп со звуком в 1К
>ВЫ ЗДЕСЬ
>2026, консистентный 30-секундный нейрослоп с голливудскими актерами
>2027, нейрослоп, стримищийся на Нетфликсе
>2028, трехчасовой нейрослоп, взявший оскар
>2029, диснеевская нейрослоповая киновселенная с супергероями, которых играют умершие актеры
>2030, 5 432 авторские нейрослоповые версии Драйвера, где Гослинг не умер разными способами
>2031, 17 847 авторских нейрослоповых версий ГТА 7
>2030-е, нейрослоповые сериалы/кино/игры/порно с вашим собственным участием в главной роли
>2040-е, нейрослоповая сингулярность, во вселенной больше не существует не нейрослопа
💯3👍1
Теперь у нас есть послойная генерация картинок, как в Фотошопе
Команда Qwen (Alibaba Cloud) выпустила по-настоящему революционную модель Qwen-Image-Layered, которая полностью меняет подход к генерации и редактированию изображений. Главная фишка модели кроется в концепции «Inherent Editability» (врожденная редактируемость): нейросеть больше не создает просто «плоскую» картинку, где все пиксели склеены намертво. Вместо этого она генерирует изображение сразу как набор независимых RGBA-слоев, наподобие того, как это устроено в профессиональных проектах Photoshop. Это означает, что каждый объект, персонаж или элемент фона изначально отделен от остальных, имеет прозрачность и, что самое важное, является полностью автономным.
Технологически это гигантский скачок по сравнению с привычными инструментами вроде Segment Anything Model (SAM). Если SAM просто создает маску (выделяет объект), оставляя на его месте «дырку» или артефакты, то Qwen-Image-Layered генерирует полноценные слои с восстановленным фоном. Нейросеть «дорисовывает» то, что находится за объектом, даже если на оригинальном изображении этого не было видно. Благодаря этому вы можете спокойно передвинуть персонажа, удалить его или изменить размер, и за ним окажется чистый, логичный фон, а не пустота. Это решает главную боль дизайнеров и редакторов, избавляя от необходимости вручную замазывать удаленные области.
Еще одной киллер-фичей стала рекурсивная декомпозиция. Модель не ограничивается фиксированным набором слоев (обычно от 3 до 8), она позволяет углубляться в детализацию практически бесконечно. Вы можете выделить любой уже сгенерированный слой и попросить нейросеть разложить его на составляющие подслои. Это дает невероятный контроль: можно начать с разделения «персонаж — фон», затем разложить персонажа на «тело — одежда — аксессуары», а затем редактировать каждый элемент отдельно, меняя цвета, текстуры или форму без влияния на соседние пиксели.
Модель построена на архитектуре Qwen2.5-VL и распространяется под максимально открытой лицензией Apache 2.0, что делает ее доступной для коммерческого использования и интеграции. Разработчики уже выложили веса на Hugging Face и ModelScope, а также предоставили поддержку в ComfyUI, что моментально делает инструмент готовым для профессиональных пайплайнов. По сути, Qwen-Image-Layered превращает процесс генерации изображений из лотереи в управляемое инженерное творчество, где структура становится важнее простого набора пикселей.
Наконец-то это сделали!
Поиграться
Команда Qwen (Alibaba Cloud) выпустила по-настоящему революционную модель Qwen-Image-Layered, которая полностью меняет подход к генерации и редактированию изображений. Главная фишка модели кроется в концепции «Inherent Editability» (врожденная редактируемость): нейросеть больше не создает просто «плоскую» картинку, где все пиксели склеены намертво. Вместо этого она генерирует изображение сразу как набор независимых RGBA-слоев, наподобие того, как это устроено в профессиональных проектах Photoshop. Это означает, что каждый объект, персонаж или элемент фона изначально отделен от остальных, имеет прозрачность и, что самое важное, является полностью автономным.
Технологически это гигантский скачок по сравнению с привычными инструментами вроде Segment Anything Model (SAM). Если SAM просто создает маску (выделяет объект), оставляя на его месте «дырку» или артефакты, то Qwen-Image-Layered генерирует полноценные слои с восстановленным фоном. Нейросеть «дорисовывает» то, что находится за объектом, даже если на оригинальном изображении этого не было видно. Благодаря этому вы можете спокойно передвинуть персонажа, удалить его или изменить размер, и за ним окажется чистый, логичный фон, а не пустота. Это решает главную боль дизайнеров и редакторов, избавляя от необходимости вручную замазывать удаленные области.
Еще одной киллер-фичей стала рекурсивная декомпозиция. Модель не ограничивается фиксированным набором слоев (обычно от 3 до 8), она позволяет углубляться в детализацию практически бесконечно. Вы можете выделить любой уже сгенерированный слой и попросить нейросеть разложить его на составляющие подслои. Это дает невероятный контроль: можно начать с разделения «персонаж — фон», затем разложить персонажа на «тело — одежда — аксессуары», а затем редактировать каждый элемент отдельно, меняя цвета, текстуры или форму без влияния на соседние пиксели.
Модель построена на архитектуре Qwen2.5-VL и распространяется под максимально открытой лицензией Apache 2.0, что делает ее доступной для коммерческого использования и интеграции. Разработчики уже выложили веса на Hugging Face и ModelScope, а также предоставили поддержку в ComfyUI, что моментально делает инструмент готовым для профессиональных пайплайнов. По сути, Qwen-Image-Layered превращает процесс генерации изображений из лотереи в управляемое инженерное творчество, где структура становится важнее простого набора пикселей.
Наконец-то это сделали!
Поиграться
huggingface.co
Qwen Image Layered - a Hugging Face Space by Qwen
This app lets you upload a picture (and optionally add a short text prompt) and then splits the picture into several separate layer images. You can view the layers in a gallery and download them al...
🔥2
Forwarded from ArtGourieff
Собрал недавно рабочую схему для Комфи (доступна на civitai) для увеличения изображений вышедшей почти месяц назад столь нашумевшей моделькой Z-Image Turbo (она же Зима, Зетка, Зитка). В схеме ничего сверхъестественного нет, постарался сделать её сбалансированной под данную задачу, и результат в целом радует 👌
По детализации Зетка при апскейле немного уступает Флаксу первому, но проблема апскейла Флаксом в том, что Флакс даже при небольшом денойзе стремится поменять черты лица🙂
Зетка лишена этого недостатка и поэтому вполне годится именно для целей апскейла в высокое разрешение📸
Пример выше — результат увеличения с 4.3МП до 17.1МП (3392x5056, файл в полном размере оставлю в 💬)
Не спрашивайте, почему Сейлор Мун 🤷♂️ так вышло, что выбрал для демо случайно попавшуюся картинку, сделанную когда-то ранее в Imagen3 (любопытно было, как справится Imagen с отрисовкой в оригинальном стиле героини мультсериала 90-х, справилась на все💯 ), прогнал картинку в Nano 🍌 чтобы перевести в реализм и далее увеличил Зеткой, детализация получилась 🔥
Ещё каких-то пару лет назад я бы не поверил, что так рисует нейросеть🤖
На самом деле мой внутренний фотограф обеспокоен такой тенденцией, ведь может получится так, что когда-то (надеюсь, что нет) придётся ещё и доказывать, что это ты и именно сам что-то сфотографировал/нарисовал/написал/сочинил, а не сгенерировал с помощью нейронки 🤖 Казалось бы, и то и другое это есть творчество, только "кисти" разные — но разница всё же есть. И чем "умнее" становятся нейросети, тем больше эта разница проявляется. Но это, пожалуй, другая тема, на которую можно порассуждать в одном из следующих постов 📝
#модели #картинки #полезное
@artgourieff
По детализации Зетка при апскейле немного уступает Флаксу первому, но проблема апскейла Флаксом в том, что Флакс даже при небольшом денойзе стремится поменять черты лица
Зетка лишена этого недостатка и поэтому вполне годится именно для целей апскейла в высокое разрешение
Пример выше — результат увеличения с 4.3МП до 17.1МП (3392x5056, файл в полном размере оставлю в 💬)
Не спрашивайте, почему Сейлор Мун 🤷♂️ так вышло, что выбрал для демо случайно попавшуюся картинку, сделанную когда-то ранее в Imagen3 (любопытно было, как справится Imagen с отрисовкой в оригинальном стиле героини мультсериала 90-х, справилась на все
Ещё каких-то пару лет назад я бы не поверил, что так рисует нейросеть
На самом деле мой внутренний фотограф обеспокоен такой тенденцией, ведь может получится так, что когда-то (надеюсь, что нет) придётся ещё и доказывать, что это ты и именно сам что-то сфотографировал/нарисовал/написал/сочинил, а не сгенерировал с помощью нейронки 🤖 Казалось бы, и то и другое это есть творчество, только "кисти" разные — но разница всё же есть. И чем "умнее" становятся нейросети, тем больше эта разница проявляется. Но это, пожалуй, другая тема, на которую можно порассуждать в одном из следующих постов 📝
#модели #картинки #полезное
@artgourieff
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥2