Метаверсище и ИИще

Forwarded from Физика Просто

This media is not supported in your browser

Как вам такое современное искусство? 😏

Цифровая анимированная картинка из синтеза Stable Diffusion и AR-трекера пространства.

ФП

🔥60👍5

2.68K viewsSergey Tsyptsyn ️️, 12:47

Метаверсище и ИИще

Все просто взбесились. ИИ-генераторов картинок становится все больше.
Не успели мы приподофигеть от иДиффи от Нвидии, как воспоследовал жоский ответ от китайцев!
Байду выкатили Эрни - китайский монстр-генератор картинок
Как написано в китайской бумаге: "ERNIE-ViLG 2.0 значительно превосходит предыдущие модели в плане точности изображения и соответствия изображения и текста, при параллельной оценке человеком на двуязычном наборе подсказок ViLG-300." Про оценку человеком, конечно, забавно.
Но.
Как пишет Артем, это самая большая на планете модель text-2-image с 24 млрд параметров (×10 больше чем SD).
Подробности и ссылка на демо у него в посте.
https://t.me/ai_newz/1541

эйай ньюз

🔥Новая Text-to-image модель ERNIE-ViLG 2.0 дает прикурить Dalle-2 и SD!

Baidu сделали новую модель, результаты которой просто ошеломляют! Это результаты моих генераций без черепика! Ни SD, ни DALLE-2 так не умеет.

За основу взята архитектура Unet от SD…

👍10🔥7

2.95K viewsSergey Tsyptsyn ️️, edited 19:24

Метаверсище и ИИще

Китайский ответ Stable Diffusion, Midjourney, DALLE, Imagen в лице
ERNIE-ViLG имеет несколько, скажем так, фич.
- И у него в роду свои датасеты.
- Он не умеет в английский язык.

В общедоступном демо на ХаггингФейсе промпты просто автоматически переводятся с китайского на английский и потом уже идут в глотку ИИ. Из это проистекает некоторое количество особенностей.

- Эрни ничего не знает про любимых нами знаменитостей. Наверное у него там есть китайские любимцы публики, но я, темный, кроме Джеки Чана никого не знаю.
- Соответственно, трюк с резким улучшение качества лиц, путем поминания селебов в промптах не работает.
- Перевод с китайского будет довольно сильно искажать некоторое контексты. Если вы не владеет китайским, вас ждут сюрпризы.
- И он ничего, тупицца, не знает про Грега Рутковскаго! Катастрофа!

Ну и как пример, Эрни ничего не знает про Арни.
Выше генерация по тексту "a painting of a arnold shwarzenegger, investor asking for money by tim okamura, featured on artstation, classical realism, hyper realism, chiaroscuro, fine art, cgsociety"

Пейзажи, конечно, пасторальные. Но вот с Арни нехорошо получилось. Продолжаем мучить китайское чудо...

👍13

3.76K viewsSergey Tsyptsyn ️️, 19:43

Метаверсище и ИИще

С Джеки Чаном тоже как-то не очень. Я подсовывал в Эрни имя Джеки Чана на китайском из Вики - выдает кораблики, а Jackie Chan Face - выдает заблюренную картинку, а просто Jackie Chan получается вот так - и это в "realistic style"!
Похоже великий китайский файервол был в датасете.

🔥11

2.71K viewsSergey Tsyptsyn ️️, edited 19:59

Метаверсище и ИИще

А вот мой любимый промпт, ломающий большиство генераторов "red polygonal pepper" китайский Эрни отрабатывает довольно неплохо. Там есть режим "low poly". С нормалями, конечно беда. Но попытка засчитана.

🔥19👍3

2.9K viewsSergey Tsyptsyn ️️, 20:15

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

CYBERTRUCK, который мы заслужили.

🔥29👍2

3.18K viewsSergey Tsyptsyn ️️, 20:17

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

ИИ добрался до Cinema4D.
Нейрорендеринг автомобиля на луне.

Автор с юмором.
https://twitter.com/Nitro4D/status/1588886692265889792

👍31🔥15

4.34K viewsSergey Tsyptsyn ️️, 16:44

Метаверсище и ИИще

Midjourney обновился до версии 4. Точнее она там появилась в списке версий. Я больше в Stable Diffusion, но вот что пишут юзеры:
- Значительно больше знаний (о существах, местах и многом другом)

- Гораздо лучше улавливаются мелкие детали (во всех ситуациях)

- Обрабатывает более сложные подсказки (с несколькими уровнями детализации)

- Лучше с многообъектными/многосимвольными сценами

- Поддерживает расширенные функции, такие как подсказки изображений и множественные подсказки.

- Поддерживает --chaos arg (установите его от 0 до 100) для управления разнообразием сеток изображений.

Подробнее на русском тут:
https://dtf.ru/s/595875-neyro-iskusstvo/1431376-generim-v-novoy-versii-midjourney-v4
Картинки и улучшенные глаза тут:
https://pikabu.ru/story/novosti_iz_mira_neyrosetey_9620759
Визги восторга вот тут:
https://www.youtube.com/watch?v=-XaBDtpu3lc

DTF

Генерим в новой версии MidJourney (V4) — НейроИскусство на DTF

Вчера стала доступна новая версия нейросети MidJourney, о которой я ранее писал.

👍23

3.09K viewsSergey Tsyptsyn ️️, 11:00

Метаверсище и ИИще

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Киберпанк на улицах.

Эти кожаные бездельники мешают нормальным людям работать.
Ходят по улицам со своими дудками и свистелками и не дают доставлять кофе для ИИ.
Пусть лучше идут данные размечать, стройными рядами.

🔥33👍3

3.11K viewsSergey Tsyptsyn ️️, 11:57

Метаверсище и ИИще

Оказалось, что мой канал читает сам Николай Иронов.
Который умел генерить логотипы и даже брендбуки по текстовому вводу еще задолго до появления джорней и дифьюженов.
Я перебеседовал с ML-командой Николая и если вам интересно, то вот некоторое количество подробностей, как у него там все устроено в мозгах. Выше примеры работ.
В коментах задавайте вопросы, Коля ответит.

Можно с уверенностью наливать за графических дизайнеров..

"Используется text to image модель.
На входе текстовый промпт собирается из трёх частей. Названия объекта (обычно это то названия, для которого искались картинки на этапе разметки данных) , ключевое слово (это может быть «логотип», «эскиз» и т.д.) и короткое стилистическое описание (это может быть цвет, ближайшая геометрическая форма и т.д.)

На выходе картинка, размером 256 на 256. На которой будет изображен объект, имя которого в промпте. Это и будет образ для будущего логотипа.

Внутри:
Датасет представляет собой понятные изолированные объекты в домене логотипной графики (для генерации разных стилей логотипной графики мы тренируем отдельные модели).

Датасет размечается по большому списку критериев, например, самые простые из них это максимально понятный смысл объекта изображенного на картинке, белый фон, один скейл объекта графики на канвасе.

Вывели эффективную систему разметки текстом, когда основная часть промпта это название объекта, по которому и размечались картинки + keyword, который будет определять область домена внутри претрейнда (в основном находился перебором + анализом начального датасета конкретного претрейнда) + короткое стилистическое описание (цвет, близжайшая геометрическая форма и т.д.), которое в свою очередь получается чем то похожим на клип, но тоже затюненым под требования задачи

Экспериментальным путем вывели, что оптимальный размер датасета 3-5К изображений (здесь время сходимости + качество обучения конкретному стилистическому домену)."

📟Ссылка на сервис
Для читателей канала есть промокод METAVERSE20
И нет, это не реклама.

👍23🔥19

3.04K viewsSergey Tsyptsyn ️️, 12:23

About

Blog

Apps

Platform