Forwarded from AbstractDL
🔥GPT-4 вышла! И она мультимодальная!
Модель принимает на вход картинки и текст, причём визуальную информацию энкодят как-то очень хитро, ведь модель понимает даже мелкий pdf шрифт (см картинку).
К сожалению, в статье только общие слова и результаты тестов (на целых 98 страниц), но нет никаких технических деталей — даже количество параметров не дают. Прямо говорят, что не хотят, чтобы кто-то воспроизвёл и выпустил это на волю (safety implications).
Блог, статья, трансляция
Модель принимает на вход картинки и текст, причём визуальную информацию энкодят как-то очень хитро, ведь модель понимает даже мелкий pdf шрифт (см картинку).
К сожалению, в статье только общие слова и результаты тестов (на целых 98 страниц), но нет никаких технических деталей — даже количество параметров не дают. Прямо говорят, что не хотят, чтобы кто-то воспроизвёл и выпустил это на волю (safety implications).
Блог, статья, трансляция
🔥14👍7🎉3
🔥Пока все в упор залипли на GPT-4, тут новая генеративная T2I модель прилетела!
GigaGAN: A Large-scale Modified GAN Architecture for Text-to-Image Synthesis
📌1B параметров
📌По метрике качества FID обходит Stable Diffusion v1.5, DALL·E 2 и Parti-750M
📌Генерирует изображение размером 512 пикселей 0.13s
📌Prompt Interpolation и Style Mixing - без этого уже никуда сейчас
Меж тем, статья будет на CVPR 2023
Статья
Гитхаб
@complete_ai
GigaGAN: A Large-scale Modified GAN Architecture for Text-to-Image Synthesis
📌1B параметров
📌По метрике качества FID обходит Stable Diffusion v1.5, DALL·E 2 и Parti-750M
📌Генерирует изображение размером 512 пикселей 0.13s
📌Prompt Interpolation и Style Mixing - без этого уже никуда сейчас
Меж тем, статья будет на CVPR 2023
Статья
Гитхаб
@complete_ai
mingukkang.github.io
GigaGAN for Text-to-Image Synthesis. CVPR2023
a 1B parameter large scale GAN for text-to-image synthesis task. CVPR2023
👍12🔥8
Forwarded from Градиентное погружение (cene655)
Мы в Sber AI скоро представим новую диффузионную модель, которая генерирует картинки.
Что она может:
1) Генерировать картинки по тексту
2) Смешивать картинки
3) Смешивать картинки и тексты
Ждите релиз на следующей неделе, будет полный опенсурс всех весов и кода обучения)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥27🔥14👍8
🔥Не перестаю гордиться нашей командой, которая заряжена строить крутые решения с горящими глазами и испытывать восхищение от получающихся результатов. Продолжаем подогревать Kandinsky 2.1😊
🤫Скоро раскроем подробности!
@complete_ai
🤫Скоро раскроем подробности!
@complete_ai
🔥41❤🔥9⚡3🎉2👍1
⚡️Довольно занимательный ресёрч вышел на днях от ребят из MIT и Northeastern University.
Erasing Concepts from Diffusion Models
Авторы предложили схему файнтюнинга для «удаления» из предобученной диффузионной модели для генерации изображений опредлённого вида контент (например, это пригодится для удаления обнажёнки, крови или просто каких-то специфичных объектов). Делается это через специальный метод negative guidance (негативные промты, которые позволяют указывать модели, чего ей НЕ нужно рисовать).
Эффект от файнтюнинга достигается путём обучения слоёв cross-attention, выходы которых зависят от промта (наличие слова “car” выделяет соответствующие контуры автомобиля на карте внимания - (a)).
🫣На пути к полной автоматизации редактирования изображений через текст (а если это ещё и в чатбот вкрутить)
Статья
Гитхаб
Erasing Concepts from Diffusion Models
Авторы предложили схему файнтюнинга для «удаления» из предобученной диффузионной модели для генерации изображений опредлённого вида контент (например, это пригодится для удаления обнажёнки, крови или просто каких-то специфичных объектов). Делается это через специальный метод negative guidance (негативные промты, которые позволяют указывать модели, чего ей НЕ нужно рисовать).
Эффект от файнтюнинга достигается путём обучения слоёв cross-attention, выходы которых зависят от промта (наличие слова “car” выделяет соответствующие контуры автомобиля на карте внимания - (a)).
🫣На пути к полной автоматизации редактирования изображений через текст (а если это ещё и в чатбот вкрутить)
Статья
Гитхаб
🔥13👍2
Накидать крутых генераций by Kandinsky 2.1?
Anonymous Poll
84%
Очень да🤗
16%
Не больно-то и хотелось😝
🔥10💯4👏3⚡2👍1