Forwarded from Физика Просто
This media is not supported in your browser
VIEW IN TELEGRAM
Как вам такое современное искусство? 😏
Цифровая анимированная картинка из синтеза Stable Diffusion и AR-трекера пространства.
ФП
Цифровая анимированная картинка из синтеза Stable Diffusion и AR-трекера пространства.
ФП
🔥60👍5
Все просто взбесились. ИИ-генераторов картинок становится все больше.
Не успели мы приподофигеть от иДиффи от Нвидии, как воспоследовал жоский ответ от китайцев!
Байду выкатили Эрни - китайский монстр-генератор картинок
Как написано в китайской бумаге: "ERNIE-ViLG 2.0 значительно превосходит предыдущие модели в плане точности изображения и соответствия изображения и текста, при параллельной оценке человеком на двуязычном наборе подсказок ViLG-300." Про оценку человеком, конечно, забавно.
Но.
Как пишет Артем, это самая большая на планете модель text-2-image с 24 млрд параметров (×10 больше чем SD).
Подробности и ссылка на демо у него в посте.
https://t.me/ai_newz/1541
Не успели мы приподофигеть от иДиффи от Нвидии, как воспоследовал жоский ответ от китайцев!
Байду выкатили Эрни - китайский монстр-генератор картинок
Как написано в китайской бумаге: "ERNIE-ViLG 2.0 значительно превосходит предыдущие модели в плане точности изображения и соответствия изображения и текста, при параллельной оценке человеком на двуязычном наборе подсказок ViLG-300." Про оценку человеком, конечно, забавно.
Но.
Как пишет Артем, это самая большая на планете модель text-2-image с 24 млрд параметров (×10 больше чем SD).
Подробности и ссылка на демо у него в посте.
https://t.me/ai_newz/1541
Telegram
эйай ньюз
🔥Новая Text-to-image модель ERNIE-ViLG 2.0 дает прикурить Dalle-2 и SD!
Baidu сделали новую модель, результаты которой просто ошеломляют! Это результаты моих генераций без черепика! Ни SD, ни DALLE-2 так не умеет.
За основу взята архитектура Unet от SD…
Baidu сделали новую модель, результаты которой просто ошеломляют! Это результаты моих генераций без черепика! Ни SD, ни DALLE-2 так не умеет.
За основу взята архитектура Unet от SD…
👍10🔥7
Китайский ответ Stable Diffusion, Midjourney, DALLE, Imagen в лице
ERNIE-ViLG имеет несколько, скажем так, фич.
- И у него в роду свои датасеты.
- Он не умеет в английский язык.
В общедоступном демо на ХаггингФейсе промпты просто автоматически переводятся с китайского на английский и потом уже идут в глотку ИИ. Из это проистекает некоторое количество особенностей.
- Эрни ничего не знает про любимых нами знаменитостей. Наверное у него там есть китайские любимцы публики, но я, темный, кроме Джеки Чана никого не знаю.
- Соответственно, трюк с резким улучшение качества лиц, путем поминания селебов в промптах не работает.
- Перевод с китайского будет довольно сильно искажать некоторое контексты. Если вы не владеет китайским, вас ждут сюрпризы.
- И он ничего, тупицца, не знает про Грега Рутковскаго! Катастрофа!
Ну и как пример, Эрни ничего не знает про Арни.
Выше генерация по тексту "a painting of a arnold shwarzenegger, investor asking for money by tim okamura, featured on artstation, classical realism, hyper realism, chiaroscuro, fine art, cgsociety"
Пейзажи, конечно, пасторальные. Но вот с Арни нехорошо получилось. Продолжаем мучить китайское чудо...
ERNIE-ViLG имеет несколько, скажем так, фич.
- И у него в роду свои датасеты.
- Он не умеет в английский язык.
В общедоступном демо на ХаггингФейсе промпты просто автоматически переводятся с китайского на английский и потом уже идут в глотку ИИ. Из это проистекает некоторое количество особенностей.
- Эрни ничего не знает про любимых нами знаменитостей. Наверное у него там есть китайские любимцы публики, но я, темный, кроме Джеки Чана никого не знаю.
- Соответственно, трюк с резким улучшение качества лиц, путем поминания селебов в промптах не работает.
- Перевод с китайского будет довольно сильно искажать некоторое контексты. Если вы не владеет китайским, вас ждут сюрпризы.
- И он ничего, тупицца, не знает про Грега Рутковскаго! Катастрофа!
Ну и как пример, Эрни ничего не знает про Арни.
Выше генерация по тексту "a painting of a arnold shwarzenegger, investor asking for money by tim okamura, featured on artstation, classical realism, hyper realism, chiaroscuro, fine art, cgsociety"
Пейзажи, конечно, пасторальные. Но вот с Арни нехорошо получилось. Продолжаем мучить китайское чудо...
👍13
С Джеки Чаном тоже как-то не очень. Я подсовывал в Эрни имя Джеки Чана на китайском из Вики - выдает кораблики, а Jackie Chan Face - выдает заблюренную картинку, а просто Jackie Chan получается вот так - и это в "realistic style"!
Похоже великий китайский файервол был в датасете.
Похоже великий китайский файервол был в датасете.
🔥11
А вот мой любимый промпт, ломающий большиство генераторов "red polygonal pepper" китайский Эрни отрабатывает довольно неплохо. Там есть режим "low poly". С нормалями, конечно беда. Но попытка засчитана.
🔥19👍3
This media is not supported in your browser
VIEW IN TELEGRAM
CYBERTRUCK, который мы заслужили.
🔥29👍2
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ добрался до Cinema4D.
Нейрорендеринг автомобиля на луне.
Автор с юмором.
https://twitter.com/Nitro4D/status/1588886692265889792
Нейрорендеринг автомобиля на луне.
Автор с юмором.
https://twitter.com/Nitro4D/status/1588886692265889792
👍31🔥15
Midjourney обновился до версии 4. Точнее она там появилась в списке версий. Я больше в Stable Diffusion, но вот что пишут юзеры:
- Значительно больше знаний (о существах, местах и многом другом)
- Гораздо лучше улавливаются мелкие детали (во всех ситуациях)
- Обрабатывает более сложные подсказки (с несколькими уровнями детализации)
- Лучше с многообъектными/многосимвольными сценами
- Поддерживает расширенные функции, такие как подсказки изображений и множественные подсказки.
- Поддерживает --chaos arg (установите его от 0 до 100) для управления разнообразием сеток изображений.
Подробнее на русском тут:
https://dtf.ru/s/595875-neyro-iskusstvo/1431376-generim-v-novoy-versii-midjourney-v4
Картинки и улучшенные глаза тут:
https://pikabu.ru/story/novosti_iz_mira_neyrosetey_9620759
Визги восторга вот тут:
https://www.youtube.com/watch?v=-XaBDtpu3lc
- Значительно больше знаний (о существах, местах и многом другом)
- Гораздо лучше улавливаются мелкие детали (во всех ситуациях)
- Обрабатывает более сложные подсказки (с несколькими уровнями детализации)
- Лучше с многообъектными/многосимвольными сценами
- Поддерживает расширенные функции, такие как подсказки изображений и множественные подсказки.
- Поддерживает --chaos arg (установите его от 0 до 100) для управления разнообразием сеток изображений.
Подробнее на русском тут:
https://dtf.ru/s/595875-neyro-iskusstvo/1431376-generim-v-novoy-versii-midjourney-v4
Картинки и улучшенные глаза тут:
https://pikabu.ru/story/novosti_iz_mira_neyrosetey_9620759
Визги восторга вот тут:
https://www.youtube.com/watch?v=-XaBDtpu3lc
DTF
Генерим в новой версии MidJourney (V4) — НейроИскусство на DTF
Вчера стала доступна новая версия нейросети MidJourney, о которой я ранее писал.
👍23
This media is not supported in your browser
VIEW IN TELEGRAM
Киберпанк на улицах.
Эти кожаные бездельники мешают нормальным людям работать.
Ходят по улицам со своими дудками и свистелками и не дают доставлять кофе для ИИ.
Пусть лучше идут данные размечать, стройными рядами.
Эти кожаные бездельники мешают нормальным людям работать.
Ходят по улицам со своими дудками и свистелками и не дают доставлять кофе для ИИ.
Пусть лучше идут данные размечать, стройными рядами.
🔥33👍3
Оказалось, что мой канал читает сам Николай Иронов.
Который умел генерить логотипы и даже брендбуки по текстовому вводу еще задолго до появления джорней и дифьюженов.
Я перебеседовал с ML-командой Николая и если вам интересно, то вот некоторое количество подробностей, как у него там все устроено в мозгах. Выше примеры работ.
В коментах задавайте вопросы, Коля ответит.
Можно с уверенностью наливать за графических дизайнеров..
"Используется text to image модель.
На входе текстовый промпт собирается из трёх частей. Названия объекта (обычно это то названия, для которого искались картинки на этапе разметки данных) , ключевое слово (это может быть «логотип», «эскиз» и т.д.) и короткое стилистическое описание (это может быть цвет, ближайшая геометрическая форма и т.д.)
На выходе картинка, размером 256 на 256. На которой будет изображен объект, имя которого в промпте. Это и будет образ для будущего логотипа.
Внутри:
Датасет представляет собой понятные изолированные объекты в домене логотипной графики (для генерации разных стилей логотипной графики мы тренируем отдельные модели).
Датасет размечается по большому списку критериев, например, самые простые из них это максимально понятный смысл объекта изображенного на картинке, белый фон, один скейл объекта графики на канвасе.
Вывели эффективную систему разметки текстом, когда основная часть промпта это название объекта, по которому и размечались картинки + keyword, который будет определять область домена внутри претрейнда (в основном находился перебором + анализом начального датасета конкретного претрейнда) + короткое стилистическое описание (цвет, близжайшая геометрическая форма и т.д.), которое в свою очередь получается чем то похожим на клип, но тоже затюненым под требования задачи
Экспериментальным путем вывели, что оптимальный размер датасета 3-5К изображений (здесь время сходимости + качество обучения конкретному стилистическому домену)."
📟Ссылка на сервис
Для читателей канала есть промокод METAVERSE20
И нет, это не реклама.
Который умел генерить логотипы и даже брендбуки по текстовому вводу еще задолго до появления джорней и дифьюженов.
Я перебеседовал с ML-командой Николая и если вам интересно, то вот некоторое количество подробностей, как у него там все устроено в мозгах. Выше примеры работ.
В коментах задавайте вопросы, Коля ответит.
Можно с уверенностью наливать за графических дизайнеров..
"Используется text to image модель.
На входе текстовый промпт собирается из трёх частей. Названия объекта (обычно это то названия, для которого искались картинки на этапе разметки данных) , ключевое слово (это может быть «логотип», «эскиз» и т.д.) и короткое стилистическое описание (это может быть цвет, ближайшая геометрическая форма и т.д.)
На выходе картинка, размером 256 на 256. На которой будет изображен объект, имя которого в промпте. Это и будет образ для будущего логотипа.
Внутри:
Датасет представляет собой понятные изолированные объекты в домене логотипной графики (для генерации разных стилей логотипной графики мы тренируем отдельные модели).
Датасет размечается по большому списку критериев, например, самые простые из них это максимально понятный смысл объекта изображенного на картинке, белый фон, один скейл объекта графики на канвасе.
Вывели эффективную систему разметки текстом, когда основная часть промпта это название объекта, по которому и размечались картинки + keyword, который будет определять область домена внутри претрейнда (в основном находился перебором + анализом начального датасета конкретного претрейнда) + короткое стилистическое описание (цвет, близжайшая геометрическая форма и т.д.), которое в свою очередь получается чем то похожим на клип, но тоже затюненым под требования задачи
Экспериментальным путем вывели, что оптимальный размер датасета 3-5К изображений (здесь время сходимости + качество обучения конкретному стилистическому домену)."
📟Ссылка на сервис
Для читателей канала есть промокод METAVERSE20
И нет, это не реклама.
👍23🔥19