Интересное что-то

Запускаем SD 3.5 Large fp8 в comfyUI

Модель в формате fp8 должна влезть в 8GB VRAM. Если у вас меньше - попробуйте варианты в формате gguf, они есть и на 4 гига, но качество будет хуже.

1. Качаем свежий comfyUI https://github.com/comfyanonymous/ComfyUI или обновляем ваш старый (update_comfyui_stable.bat)

2. Качаем 3 клипа (все кроме t5xxl_fp16.safetensors) и кладем в папку /models/clip/: https://huggingface.co/lodestones/stable-diffusion-3-medium/tree/main/text_encoders

3. Скачать саму sd3 в fp8 или gguf формате, пишут, что скорость почти одинаковая. Дефолтная модель в fp16 весит слишком много (16 GB), поэтому я использовал fp8, положил в папку /models/checkpoints/. Гуфы надо класть в папку /models/unet/

fp8 (8GB) https://huggingface.co/matt3ounstable/stable-diffusion-3.5-large-fp8/tree/main
или gguf (4-8 GB) https://huggingface.co/city96/stable-diffusion-3.5-large-gguf/tree/main
(для гуфов нужно установить ноды: "ComfyUI-GGUF", они есть в ComfyUI-Manager. Далее для загрузки модели ипользовать ноду "Unet loader (GGUF)")

4. Качаем vae и кладем в /models/vae/ https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/vae/diffusion_pytorch_model.safetensors

5. Качаем workflow (картинку) для fp8 и перетаскиваем в браузер в ComfyUI https://github.com/Mozer/comfy_stuff/blob/main/workflows/sd35_large_fp8.png
для гуфов workflow сами измените ноду LoadCheckpoint на Unet loader (GGUF).

6. Проверяем, что нужные модельки выставлены в TripleCLIPLoader, LoadCheckpoint и LoadVAE. Готово.

## Скорость
SD3.5 large FP8:
На 2080Ti-22GB (pcie 3.0 4x, power-limit 80%)
Холодный старт - 75s
1024x1024 20 steps - 42s, 1.61s/it
жрет vram - 21 GB

На 3060-12GB (pcie 3.0 4x, power-limit 80%)
Холодный старт - 91s
1024x1024 20 steps - 75s, 3.20s/it
жрет vram - 11 GB

Скорость Flux-dev-fp8 у меня чуть-чуть медленнее (2080ti, 1024x1024 20 steps - 45s, 1.94s/it)

Если в SD3.5 не менять промпт, и vae вынести на вторую видюху, то полное время на генерацию будет 35s.

SD-3.5-Large-8b тренилась на разрешении до 1 мегапикселя, так что ставить разрешение больше чем 1024х1024 не стоит - будет ухудшение качества. (Flux работает до 2-х мегапикселей). Модель поменьше, SD-3.5-Medium-2.5B, обещают выпустить уже 29 декабря, и в ней обещают разрешение до 2 mpx. Еще есть Large-Turbo модель, генерирует всего за 4 шага, но качество будет хуже, ее не тестил.

Общее впечатление: flux лучше. Он реалистичнее, анатомия лучше, разрешение больше, следование промпту лучше. А тут результат напоминает SDXL. Но, наверняка, для SD3 будут свои файнтюны и лоры, которые улучшат ситуацию и добавят что-то новое, например flux очень дорого файнтюнить (lora - дешево). Текст пишет, но в мелком тексте будут неточности. Пишут, что sd3 лучше чем flux следует заданному художественному стилю. Сам не тестил.

Nsfw - умеет, верх - норм (лучше чем у флакса из коробки), низ - без деталей (+- как у флакса из коробки). Для реализма нужно снизить cfg например до 3.0.

Затестить онлайн https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large

69 views16:40