Stable Diffusion | Text2img

Всем привет!
Давно не писал в группу (слишком много дел и мало свободного времени), но тут просто нельзя пройти мимо.

Итак, всем известный разработчик lllyasviel (автор контролнета, Фооокуса, Форджа, свежего Релайта) выпустил новую шикарную вещь.

Omost - https://github.com/lllyasviel/Omost

Это LLM (большая языковая модель), которая по вашему запросу создаёт крутейшую картину с максимальным вниманием к деталям. Что бы было понятнее, принцип как у Dalle-3: вы даёте короткий промт (или максимально развёрнутый, по желанию), а ЛЛМ очень подробно расписывает ваш запрос, раскладывает его на составные части, планирует как всё это будет выглядеть в общем и в частностях.
Если интересно в подробностях, загляните на страницу, Иллия расписал всё сверхпонятно: как описывается начало, как разбивается на регионы, каким образом редактировать растояние до "зрителя", развёртка каждой части промта. После подготовительного этапа вся эта информация отправляется на генерацию. По умолчанию используется чекпоинт XL RealVisXL_V4.0 но можно подкинуть ему любой (в формате Диффузерсов). "Подготовительные" ЛЛМ, кстати, тоже стандартные (ллама-3, phi-3 и дельфин 2.9), единственное что - им требуется специальная дотренировка.

Выше я приложил картинки, которые получаются у Omost. Первые сделаны по простым промтам (битва тысяч орков и людей у города, орк бежит возле рушающейся стены, эльфийки плывут, идут вброд по реке), а следующая - подробно описана (цвет штанов, куртки, футболки, надпись на ней, ночной город с многоэтажками, стилистика аниме/не аниме). Конечно, проблемы нейросетей никуда не делись, но следование промту и внимание к деталям очень хороши.

Как же всё это потрогать, спросите вы?
Во-первых, есть готовая демка на Обнимашках. Работает она быстро (к тому же, абсолютно бесплатно и без ограничений), но порой не хочет рендрить картинку. Тут претензия к самим обнимашкам, да. Где-то 5 из 10 запросов у меня отработало нормально.
И конечно же, Иллия не был бы собой, если бы всё это не было доступно локально! Ссылка на инструкцию по локальной установке. Пройдёмся по пунктам.

Во-первых, естествинно, вам нужен Питон. Автор рекомендует 3.10.хх, соответственно, скачиваете 3.10.6 или 3.10.11 (что бы точно всё заработало). Если вы скачаете последнюю версию - ничего не заработает!
Далее нужны установленные git и Анаконда для 3.10.
Поставив всё в такой очерёдности (не забывайте обязательно ставить галки "добавить в ПУТЬ" и "интеграция с питоном" где они есть), открываем Anaconda Prompt (miniconda3) появившуюся у вас в Пуске и поочерёдно выполняем строчки инструкции на странице выше. Когда всё скачается и установится (5-20 минут) откроется ваш браузер по адресу http://localhost:7860 где будет простенький интерфейс для работы.

Что по памяти? Тут всё отлично, "базовая" ллама-3 q4 спокойно входит в 8 гигабайт VRAM (Скриншоты выше - во время работы ЛЛМ), ну а картинки рисуются на XL, что так же спокойно помещается там же.
На моей 3060 предварительный этап (развёртка через ЛЛМ) занимает где-то полторы-две минуты, рисовка картинки 1536х896 - секунд 40 без Хайрес-фикса и 3-4 минуты с ним.

Интерфейс, пока, максимально простой - нет ни смены чекпоинта, ни семплеров, ни сохранения картинок, ни даже батника запуска. Очень надеюсь на сообщество, что это нам быстро прикрутят :) Но если вы хотите пощупать одним из первых - то уже можно.

🔥52❤14👾4

20.4K views13:50

Stable Diffusion | Text2img

❤4

23.9K views19:03

Stable Diffusion | Text2img

Тут опять вышла новая штука, мимо которой ну никак не пройти.
УНИВЕРСАЛЬНЫЙ SD XL controlnet, который (с одной моделью) работает сразу с десятком препроцессоров:
Openpose, Depth, Canny, Lineart, AnimeLineart, Mlsd, Scribble, Hed, Pidi(Softedge), Teed, Segment (!), Normal. Так же, по моим тестам, работают ReColor и Tile/Blur (!)
Т.е., по сути, одна модель перекрывает 90% потребностей - остаются отдельные только на IP-адаптеры, инпаинт и Tile (если не устроит результат универсала).
Смелые заявления, конечно, давайте посмотрим подробнее так ли это.
Во-первых, почитаем страничку автора:

Модель имеет следующие ключевые преимущества:
- Генерация изображений высокого разрешения с гибким соотношением сторон.
- Обучение на большом количестве высококачественных данных (более 10 млн изображений).
- Высокая точность понимания подсказок благодаря перефразированным подсказкам и детальным описаниям.
- Использование передовых методов улучшения результатов в процессе обучения.
- Сопоставимое с ControlNet количество параметров без заметного увеличения вычислительных ресурсов.
- Поддерживает более 10 условий управления, при этом не наблюдается заметного снижения качества работы с отдельными условиями по сравнению с моделями, обученными для работы с одним условием.
- Поддерживает генерацию изображений с несколькими условиями, при этом слияние условий происходит в процессе обучения, без необходимости ручной настройки гиперпараметров или подсказок.

Во-вторых, тесты и сравнения с другими моделями!
По картинкам выше. Тестируемая модель названа xinsir_controlnet_xl_UNIVERSAL. Все тесты делал на realismEngineSDXL_v30 (animaPencilXL_v5, если аниме), DPM++ 2M семплер, 20 шагов, 5 CFG, без хайрес фиксов. Промт брал автотагером, негатив - простой стандартный. "Остановка работы" и "Вес" контролнета брались в зависимости от используемого препроцессора, в среднем 0.7-0.9. Выборку не делал, всё с первых попыток.
1-2) Глубина. Здесь и далее - исходник/отработка. У глубины куча различных препроцессоров - и на всех отработало хорошо.
3-4) Тест ОпенПоз. Режим работы контролнета выставлен "ControlNet is more important" (так надо для ОпенПоз).
5-6) Различные Line-препроцессоры. Сравниваем с предыдущим чемпионом - mistoLine.
7-8) Самые проблемные - Сегментация и Normal. Адекватных моделек на сегментацию (для SD XL) до этого не было, и похоже эта - первая нормальная. С Нормалями та же история. Так же интересно, что нарисовано это на реалистик чекпоинте (хоть и с примесью аниме).
9-10) Tile. Сравниваем, опять же с предыдущим "победителем" от того же автора - xinir_Tile. Этот контролнет служит для улучшения качества картинки, но можно и чуть-чуть поднять параметры кастомизации и получить картинку "по мотивам". Первый вариант на изображении - улучшение, второй - "вольная интерпретация". Работает (в первом случае) не идеально, но это вообще автором не планировалось.

Что у нас в выводах? Автор не соврал, и действительно - одна модель может заменить большинство существующих. По качеству она так же либо не уступает другим, либо превосходит.
Модель уже работает в Автоматике1111 (Комфи тоже, естественно), обновлять ничего не нужно. Скачайте, положите в папку с ControlNet, переименуйте как удобно и пользуйтесь! Единственное, что контролнет, по-умолчанию, фильтрует модели по типу, и что бы увиделась ваша моделька - нужно нажать рядом с выбором модели кнопку "обновить" (это сбросит фильтр, в том числе).

🔥55❤3👾1

23.9K viewsedited 19:03

Stable Diffusion | Text2img

Небольшое обновление в ControlNet Automatic1111, касательно предыдущего поста. Если обновиться и переименовать модель в controlnet++_union_sdxl (или часть имени сделать таким), то данный контролнет будет видится во всех официально поддерживаемых режимах. Чуть-чуть подробностей по ссылке - https://github.com/Mikubill/sd-webui-controlnet/discussions/2989

Кстати, лайфхак (кто ещё сам не догадался 👀)! Если использовать одну модель на несколько юнитов - выйдет значительная экономия памяти (только одна модель будет в VRAM). Максимально актуально это для работы с AnimatedDiff, где теперь можно спокойно юзать 4-5 контролнетов.

🔥27❤2👾1

25.3K views03:08

Stable Diffusion | Text2img

Скриншоты для поста ниже.
1-2) Девушки приветствуют новый Forge! 🧍‍♀️🪧
3) Гоняем FLUX с ХайресФиксом в Forge (я не знаю зачем Хайрес, просто тестил функционал🤷‍♂️)
4) Новые удобные пресеты вверху UI. Переключаются не только плашки вверху, но и семплеры + основные настройки.
5) Кнопки интерфейса в различных полотнах Gradio4.
6) Встроенный Контролнет - используем Tile не по назначению!

❤13🔥9👾3

28K views15:17

Stable Diffusion | Text2img

И снова мега крутая штука. И снова от lllyasviel (автор Контролнета, Фооокуса, Омоста). Точнее даже не новая штука, а легендарный камбэк :)

Итак, автор обновил свой "Автоматик" - Forge до версии 2.0.0. Ну, обновил это слабо сказано. Если посмотреть коммиты - там переписано всё (иногда по 2-3 раза): бэкэнд, фронтэнд, модули, оптимизации, очень старые фишки которые давно надо было переделать. Технических обновлений очень много, их просто не перечислить (общее количество правок более 2 миллионов строк!). Давайте посмотрим, что можно получить нам, как пользователям:

— Одно из главных нововведений - это обновление Gradio до 4.х+. Он стал стабильнее, отзывчивее, туда добавлена гора новых фишек, при этом сохранился понятный интерфейс. Удобные пространства и рисование во вкладках инпаинта, новые кнопки в работе с изображениями, функциональные слайдеры и т.п.
— Поддержка всего на свете. SD3? FLUX? HunyuanDiT? Kolors? Playground? Сигмы и всё такое? Это тут теперь есть! Так же расширена поддержка Диффузеров, поэтому можно будет довольно легко добавить любую свежую модель.
— Про FLUX ещё отдельно скажу. lllyasviel сделал собственную имплементацию инфернеса этого чекпоинта и реализовал "прямую" работу с bnb NF4. Для тех кто не понял - это "настоящая" работа чекпоинта в int4, по качеству и скорости превосходящее текущие реализации FP8. Для тех кто всё ещё не понял - подробности тут :) По тестам - FLUX входит в 8 Гб VRAM, но может работать и с 6 (4?). Запустить это можно на 30ХХ+ карточках (ниже просто не поддерживают int4 тензоры на "железном" уровне) и с Cuda-библиотекой версии выше 12.4. Если у вас видеокарта старее - используйте fp8 реализацию.
— Реализовано полноценное управление Shared-памятью. Если у вас не хватает видеопамяти на очередную современную модель - часть можно скинуть в RAM. Раньше это делалось автоматически, на основе драйверов. Теперь - можно чётко указать сколько оставить в VRAM (в мегабайтах) и кто будет управлять выгруженной памятью (процессор или видеокарта)
— Оптимизации контролнета и поддержка новых фитч. Переписана логика работы КН, он теперь куда более плотно встроен в бэкэнд, что увеличивает как скорость загрузки, так и скорость работы. А так же добавлены модели, которые мы уже видели в контролнете Автоматика1111. В ближайшее время автор добавит пачку новых фитч, которые были реализованы как проект, но в "больших" интерфейсах особо не появлялись.

Как это всё установить и пользоваться? По сути, тут ничего не поменялось - ставите Python, git, и дальше любым удобным способом по старой ссылке. Или можно скачать упакованный релиз отсюда - https://github.com/lllyasviel/stable-diffusion-webui-forge/releases. Там можно выбрать готовый вариант webui_forge_cu124_torch24.7z для Куды 12.4 (30хх+ карты) или с Кудой 12.1 для остальных. После распаковки достаточно запустить run.bat и остальные установки сделаются сами (Питон и Гит всё равно уже должны быть у вас установлены). От себя порекомендую поставить Forge с нуля, а не обновлять старую версию (что бы не получить ошибок).

По моим тестам - весь базовый функционал работает. Т2и, И2и, апскелинг, лоры, контролнеты (успел проверить не все). Понятно, что большинство расширений отвалилось. Но, во-первых, в Forge уже встроено 80% того, что нужно (контролнет, различные фиксы и оптимизаторы, мультидиффузия), а, во-вторых, авторы крупных расширений (аДеталер, АниматеДифф) уже взялись за подгонку своих проектов.
По скорости в обычных задачах (генерации+лоры/контролнет) прирост у Форджа относительно последней версии Автоматика ~30-40%. И2и (как и раньше) прирост вообще сумасшедший, от 50% ускорения и выше.

🔥84❤18

47.2K views15:17

Stable Diffusion | Text2img