Предрелизнулась новая модель text2image - DeepFloyd (IF) от одного из подразделений наших любимых StabilityAI.
Это бесплатная модель с открытым исходным кодом по новому подходит к генерациям. Сначала создаётся база будущей картинки - размером 64x64 пикселей.
Затем, при помощи двух разных СуперСкалеров, картинка увеличивается сначала до 256х256, а после - до 1024х1024. Естественно, на каждом из этапов модель дополнительно регулируется слоями UNet, что бы базовая картинка и промт не "потерялись".
Разработчики заявляют об отличной фотореалистичности и детализированности "из коробки", плюс беспрецедентное следование вашему текстовому запросу - 6.66 FID-очков по датасету COCO, если вам это о чём-нибудь говорит.
(мне это мало что говорит, но разработчики счастливы от такой цифры, говорят что лучше всех аналогов на текущий момент 🥸).
Так же эта модель отлично генерирует текст и, опять же по заявлениям разработчиков, благодаря обновлённому подходу в генерациях избавлена от "детских болячек" прошлых нейросетей - очень плохих рук и сливания деталей в общую кучу.
В общем, нужно проверять на практике, но предрелизные картинки, которые выкладывали авторы с начала текущего года - действительно неплохи.
По системным требованиям.
К сожалению новая технология требует "новых" ресурсов.
Пока (я подчеркнул, да), системные требования видны на картинке 3.
Да, 24 гигабайта для картинки 1024х1024.
С небольшими вывертами это всё входит в 16 гигабайт бесплатного коллаба, блог об этом. Надеемся на сообщество и разработчиков - что бы завезли побольше оптимизаций, для домашнего использования моделей.
- Код модели здесь.
- Модели (веса) будут тут.
(они уже выложены, но пока скрыты от обычных пользователей).
- Демка, что бы всё попробовать будет здесь.
Это бесплатная модель с открытым исходным кодом по новому подходит к генерациям. Сначала создаётся база будущей картинки - размером 64x64 пикселей.
Затем, при помощи двух разных СуперСкалеров, картинка увеличивается сначала до 256х256, а после - до 1024х1024. Естественно, на каждом из этапов модель дополнительно регулируется слоями UNet, что бы базовая картинка и промт не "потерялись".
Разработчики заявляют об отличной фотореалистичности и детализированности "из коробки", плюс беспрецедентное следование вашему текстовому запросу - 6.66 FID-очков по датасету COCO, если вам это о чём-нибудь говорит.
Так же эта модель отлично генерирует текст и, опять же по заявлениям разработчиков, благодаря обновлённому подходу в генерациях избавлена от "детских болячек" прошлых нейросетей - очень плохих рук и сливания деталей в общую кучу.
В общем, нужно проверять на практике, но предрелизные картинки, которые выкладывали авторы с начала текущего года - действительно неплохи.
По системным требованиям.
К сожалению новая технология требует "новых" ресурсов.
Пока (я подчеркнул, да), системные требования видны на картинке 3.
Да, 24 гигабайта для картинки 1024х1024.
С небольшими вывертами это всё входит в 16 гигабайт бесплатного коллаба, блог об этом. Надеемся на сообщество и разработчиков - что бы завезли побольше оптимизаций, для домашнего использования моделей.
- Код модели здесь.
- Модели (веса) будут тут.
(они уже выложены, но пока скрыты от обычных пользователей).
- Демка, что бы всё попробовать будет здесь.
😱14👍12❤2
Жулик, не воруй! Lora на Doru 😼 В смысле - на Дашу-следопыта (кто не знал, в оригинале она - Дора). https://civitai.com/models/44473/dora-the-explorer
🔥8🌚4😁3😱1