Про SDXL
Новая модель от stability.ai (контора, которая разрабатывает stable diffusion), картинки от которой выглядят очень даже.
Прервемся на секунду. С моделями версий 1.x и 2.x у нас есть проблема - мы не можем генерировать большие изображения. Если попробуем сгенерировать картинку, с размерами сильно отличающимися от стандартных (512x512), то с высокой долей вероятности получим различные искажения и артефакты в виде дублирующихся головы/тела, повторяющегося фона и тому подобное. Это проблему решает hiresfix и работает он следующим образом:
1. Генерируем исходную картинку в txt2img, например 512x512
2. Прогоняем ее через апскейлер, чтобы просто увеличить картинку до нужного размера, например 1024x1024
3. Заапскейленую картинку прогоняем через img2img, чтобы добавить деталей
Как я понял, парни тоже самое решили сделать на уровне модели, точнее двух. Внутри SDXL у нас есть базовая модель (base) и дорабатывающая (хз как перевести, refiner). Первая генерирует картинку, вторая ее дорабатывает - процесс получается почти такой же как при уже знакомом нам hiresfix, с тем отличием, что вместо того чтобы создавать маленькую картинку и потом ее апскейлить, первая модель сразу создает изображение нужного размера, но не доделывает до конца, а оставляет чутка сыроватой и передает второй модели, которая уже доделает как надо. На выходе имеем красивую, большую картиночку. Поэтому новая модель (которая состоит из двух) и называется SDXL.
Но если играть, то по крупному, да? В моделях первой версии для обработки текста использовали openai'евский CLIP, во второй линейке OpenCLIP, а в SDXL решили использовать сразу оба и как говорят, промптится проще - результаты лучше, примерно как у Midjourney.
В итоге если в моделях первых версий было около 1млрд параметров, то с SDXL это около 6.6млрд. Это с одной стороны хорошо: больше параметров - лучше результат, больше разрешение, но и считать теперь сильно больше, и по идее нужно видеокарту помощнее, хотя ребята говорят, что все не так уж и плохо.
Кроме того, как пишет Эмад:
- готова поддержка Автоматика и ComfyUI
- уже готов Controlnet и t2i-адаптеры
- kohya обновил скрипты для тренировки и еще сделали какой-то свой тренер
- SDXL 1.0 будет под CreativeML license (такая же лицензия как у основных моделей)
Но работы еще ведутся и как в SDXL beta была только одна модель, а в SDXL 0.9 уже две, точно также у SDXL 1.0 может что-то поменяться/оптимизироваться так что когда выйдет - тогда и посмотрим. Грозятся выпустить в середине июля. Ну что ж, ждем.
Поиграться с пробной версией SDXL 0.9 можно тут
Новая модель от stability.ai (контора, которая разрабатывает stable diffusion), картинки от которой выглядят очень даже.
Прервемся на секунду. С моделями версий 1.x и 2.x у нас есть проблема - мы не можем генерировать большие изображения. Если попробуем сгенерировать картинку, с размерами сильно отличающимися от стандартных (512x512), то с высокой долей вероятности получим различные искажения и артефакты в виде дублирующихся головы/тела, повторяющегося фона и тому подобное. Это проблему решает hiresfix и работает он следующим образом:
1. Генерируем исходную картинку в txt2img, например 512x512
2. Прогоняем ее через апскейлер, чтобы просто увеличить картинку до нужного размера, например 1024x1024
3. Заапскейленую картинку прогоняем через img2img, чтобы добавить деталей
Как я понял, парни тоже самое решили сделать на уровне модели, точнее двух. Внутри SDXL у нас есть базовая модель (base) и дорабатывающая (хз как перевести, refiner). Первая генерирует картинку, вторая ее дорабатывает - процесс получается почти такой же как при уже знакомом нам hiresfix, с тем отличием, что вместо того чтобы создавать маленькую картинку и потом ее апскейлить, первая модель сразу создает изображение нужного размера, но не доделывает до конца, а оставляет чутка сыроватой и передает второй модели, которая уже доделает как надо. На выходе имеем красивую, большую картиночку. Поэтому новая модель (которая состоит из двух) и называется SDXL.
Но если играть, то по крупному, да? В моделях первой версии для обработки текста использовали openai'евский CLIP, во второй линейке OpenCLIP, а в SDXL решили использовать сразу оба и как говорят, промптится проще - результаты лучше, примерно как у Midjourney.
В итоге если в моделях первых версий было около 1млрд параметров, то с SDXL это около 6.6млрд. Это с одной стороны хорошо: больше параметров - лучше результат, больше разрешение, но и считать теперь сильно больше, и по идее нужно видеокарту помощнее, хотя ребята говорят, что все не так уж и плохо.
Кроме того, как пишет Эмад:
- готова поддержка Автоматика и ComfyUI
- уже готов Controlnet и t2i-адаптеры
- kohya обновил скрипты для тренировки и еще сделали какой-то свой тренер
- SDXL 1.0 будет под CreativeML license (такая же лицензия как у основных моделей)
Но работы еще ведутся и как в SDXL beta была только одна модель, а в SDXL 0.9 уже две, точно также у SDXL 1.0 может что-то поменяться/оптимизироваться так что когда выйдет - тогда и посмотрим. Грозятся выпустить в середине июля. Ну что ж, ждем.
Поиграться с пробной версией SDXL 0.9 можно тут
❤15👍6👏2❤🔥1
Сделал тут видео про clip-skip, лучшее в нем - переходы между блоками
https://www.youtube.com/watch?v=oh2TgZ8eQuU
https://www.youtube.com/watch?v=oh2TgZ8eQuU
YouTube
Stable diffusion: что такое clip-skip?
В этом видео разберемся что такое clip-skip, как он влияет на наши генерации и как поменять его в Automatic1111.
Мой канал в тг, там выкладыаю статьи, заметки, новости и естественно, мемы: https://t.me/+__J0np8nTjkwOWJl
00:00 - Вступление
00:05 - Что такое…
Мой канал в тг, там выкладыаю статьи, заметки, новости и естественно, мемы: https://t.me/+__J0np8nTjkwOWJl
00:00 - Вступление
00:05 - Что такое…
👍10❤2
А вообще, на каком уровне знаете stable diffusion? (чтобы я знал что по контенту делать)
Anonymous Poll
36%
Начальный: установил автоматик и нажал кнопку "Generate". Ничего не понятно, но очень интересно
53%
Средний: с настройками разобрался, поставил пару расширений, но понимания как это все работает нет
10%
Киборг-убийца: да если захочу, напишу свой автоматик с controlnet'ом и adetailer'ом
🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
Пробегал мимо одного чатика и там спрашивали про туториалы по deforum, интересующиеся могут ознакомиться:
🌉 Примеры анимации параметров можно посмотреть на страничке дефорума и на гитхабе
📄 Почитать можно и оф. доку по блокноту, и вики на гитхабе, и на rentry тоже есть
🎥 Неплохое видео у Сабатовского и продвинутое у Всеволода (который тоже моушн). Эти два видео вообще красота (на англ): один и два
Если нужон гайд ставьте🗿, наберем 15 - сделаю
🌉 Примеры анимации параметров можно посмотреть на страничке дефорума и на гитхабе
📄 Почитать можно и оф. доку по блокноту, и вики на гитхабе, и на rentry тоже есть
🎥 Неплохое видео у Сабатовского и продвинутое у Всеволода (который тоже моушн). Эти два видео вообще красота (на англ): один и два
Если нужон гайд ставьте🗿, наберем 15 - сделаю
🗿50🫡1
Слили SDXL 0.9
Интересно потестить, чтобы потом сравнить с 1.0
Ссылки для любознательных (торренты):
Базовая:
Интересно потестить, чтобы потом сравнить с 1.0
Ссылки для любознательных (торренты):
Базовая:
magnet:?xt=urn:btih:45ec120e40c68176ae5414250726cceaffe22001&dn=sd_xl_base_0.9.safetensors
Рефайнер: magnet:?xt=urn:btih:b2685d9ae2026df0697e5f1193406cba16bad435&dn=sd_xl_refiner_0.9.safetensors
Вся репа (обе): magnet:?xt=urn:btih:56d304b8c2a40a92af7f6ff52cdf8b80ace9220d&dn=SDXL%200.9
В автоматике вроде готова поддержка, но честно не знаю выгружали ли ее или она на другой ветке (сходу не заработало), поэтому проще в ComfyUI использовать. Закидываем приложенный файлик в интерфейс (просто перетащить и отпустить) и генерим. На моей кофемолке с 4гб, с lowvram, 1024x1024 делает несколько минут.❤2🔥1🤔1🏆1
Я там в файлике накосячил
Пока генерил, думал, что это я с промптами туплю и все выглядит хуже чем в clipdrop (в SDXL другой обработчик текста (точнее два), поэтому промптить нужно немного по другому), или может это такая сырая версия? Разгадка, как это обычно бывает, куда проще: я просто наебался с нодами для обработки текста и с нодами для семплеров. Слева на картинке неправильно, справа - правильно.
Это все, до релиза про sdxl больше ни слова.
Приложил новый файлик с правильным пайплайном, а у тех, кто работал с неправильным
Пока генерил, думал, что это я с промптами туплю и все выглядит хуже чем в clipdrop (в SDXL другой обработчик текста (точнее два), поэтому промптить нужно немного по другому), или может это такая сырая версия? Разгадка, как это обычно бывает, куда проще: я просто наебался с нодами для обработки текста и с нодами для семплеров. Слева на картинке неправильно, справа - правильно.
Это все, до релиза про sdxl больше ни слова.
Приложил новый файлик с правильным пайплайном, а у тех, кто работал с неправильным
❤9
github_video.gif
13.4 MB
До этого вышел DragGAN, который позволял двигать картинки, но у него было два минуса:
- как несложно догадаться, он использует GAN'ы (мы с вами на диффузионных моделях сидим)
- Для всего что мы хотим двигать нужна отдельная модель
И теперь на нашей улице праздник, выпустили DragDiffusion и он:
- работает с нашими моделями
- для того чтобы что-нибудь двинуть нужно быстренько натренировать лору с нужной картинкой (в демке учат 200 шагов)
Ждем пока допилят, докрутят и завернут все в расширение для автоматика.
Страница проекта
Репозиторий с кодом
Бумага в архиве
- как несложно догадаться, он использует GAN'ы (мы с вами на диффузионных моделях сидим)
- Для всего что мы хотим двигать нужна отдельная модель
И теперь на нашей улице праздник, выпустили DragDiffusion и он:
- работает с нашими моделями
- для того чтобы что-нибудь двинуть нужно быстренько натренировать лору с нужной картинкой (в демке учат 200 шагов)
Ждем пока допилят, докрутят и завернут все в расширение для автоматика.
Страница проекта
Репозиторий с кодом
Бумага в архиве
👍7🔥5❤2🥰1
Пу-пу-пу, так
➖ лучший редактор openpose, которым пользовался
➖ прикольный тестер для проверки фоток (сгенерированная или нет?)
➖ небольшая статья про модели, про технические детали/неисправности. Тем, кто работает с моделями или хочет узнать чуть больше можно почитать
➖ хорошая статья про блок-мерж моделей
➖ интересная портянка про тренировку моделей на сгенерированных картинках. Вывод: лучше всего, сгенерированные картинки разбавлять реальными (новыми), тогда все будет ок. Тут конечно речь про большие, полноценные тренировки с кучей картинок, но и для собственных тестов тоже интересный момент.
➖ завтра релиз sdxl, интересующиеся могут ознакомиться с этим и этим. До этого про неё уже писал, так что коротко:
- состоит из двух моделей: базовая делает основную часть, а рефайнер доделывает, поэтому использовать только вместе (что в общем-то стало понятно после игр с 0.9)
- предназначена для размеров 768-1024
- основные проблемы остаются: руки и остальные мелкие/сложные детали
- модель большая (2.6ярда параметров против 0.86ярда у моделей 1.x и 2.x) - требует видеокарточку помощнее (и для генерации и для тренировки)
- попутно в статье немного похуисосили MJ и Dalle за то что не делятся наработками и не имеют права говорить что они самые-самые, потому что модели закрытые и нормально потестировать их нельзя, а SDXL все равно уделывает их по красоте картинок (по тестам авторов, естественно)
- ждем версию 1.5 автоматика, с поддержкой sdxl и остальными плюшками
А в целом работал, поэтому отделаюсь только этим постом. Один из проектов nsfw направления, поэтому пришлось вникнуть в генерацию сисек-писек, так что теперь я обладатель разряда по генерации похабных и фотореалистичных картинок.
Сажусь за гайд по дефоруму
➖ лучший редактор openpose, которым пользовался
➖ прикольный тестер для проверки фоток (сгенерированная или нет?)
➖ небольшая статья про модели, про технические детали/неисправности. Тем, кто работает с моделями или хочет узнать чуть больше можно почитать
➖ хорошая статья про блок-мерж моделей
➖ интересная портянка про тренировку моделей на сгенерированных картинках. Вывод: лучше всего, сгенерированные картинки разбавлять реальными (новыми), тогда все будет ок. Тут конечно речь про большие, полноценные тренировки с кучей картинок, но и для собственных тестов тоже интересный момент.
➖ завтра релиз sdxl, интересующиеся могут ознакомиться с этим и этим. До этого про неё уже писал, так что коротко:
- состоит из двух моделей: базовая делает основную часть, а рефайнер доделывает, поэтому использовать только вместе (что в общем-то стало понятно после игр с 0.9)
- предназначена для размеров 768-1024
- основные проблемы остаются: руки и остальные мелкие/сложные детали
- модель большая (2.6ярда параметров против 0.86ярда у моделей 1.x и 2.x) - требует видеокарточку помощнее (и для генерации и для тренировки)
- попутно в статье немного похуисосили MJ и Dalle за то что не делятся наработками и не имеют права говорить что они самые-самые, потому что модели закрытые и нормально потестировать их нельзя, а SDXL все равно уделывает их по красоте картинок (по тестам авторов, естественно)
- ждем версию 1.5 автоматика, с поддержкой sdxl и остальными плюшками
А в целом работал, поэтому отделаюсь только этим постом. Один из проектов nsfw направления, поэтому пришлось вникнуть в генерацию сисек-писек, так что теперь я обладатель разряда по генерации похабных и фотореалистичных картинок.
Сажусь за гайд по дефоруму
🔥21❤🔥1👍1