fp8/16速度与效果测试
不测试fp32是因为要么爆显存要么爆内存,刚刚no-half刚死过一次
测试设备i5-4590 + 16G RAM(+4G Swap 95%阈值) + P102-100 10G VRAM
系统空载显存占用0,内存占用858MB
测试大小均为1024*1024px,所有测试均测试2次并丢弃第一次数据(确保Cache预热)
E38090SDXLE38091anime
结果为所需时间-峰值显存-内存占用
测试设备i5-4590 + 16G RAM(+4G Swap 95%阈值) + P102-100 10G VRAM
系统空载显存占用0,内存占用858MB
测试大小均为1024*1024px,所有测试均测试2次并丢弃第一次数据(确保Cache预热)
E38090SDXLE38091anime
{fukuro_daizi},{{tsubasa_tsubasa}},[naga_u,kani_biimu,henreader],[[ask_(askzy),[[tianliang_duohe_fangdongye]],sho_(sho_lwlw),ciloranko]],year_2023, 1girl, animal ears, thighhighs, solo, breasts, tail, japanese clothes, hair ornament, long hair, pink hair, looking at viewer, kimono, white thighhighs, no panties, animal ear fluff, hair flower, flower, cat ears, outdoors, cat girl, standing, full body, purple hair, pink eyes, groin, cherry blossoms, collarbone, blush, cat tail, pelvic curtain, long sleeves, navel, off shoulder, parted lips, toeless legwear, pink kimono, sash, medium breasts, floral print, best quality, amazing quality, very aesthetic, absurdres 结果为所需时间-峰值显存-内存占用
Cyanのsth随手贴
fp8/16速度与效果测试 不测试fp32是因为要么爆显存要么爆内存,刚刚no-half刚死过一次 测试设备i5-4590 + 16G RAM(+4G Swap 95%阈值) + P102-100 10G VRAM 系统空载显存占用0,内存占用858MB 测试大小均为1024*1024px,所有测试均测试2次并丢弃第一次数据(确保Cache预热) E38090SDXLE38091anime {fukuro_daizi},{{tsubasa_tsubasa}},[naga_u,kani_biimu…
*1 开启medvram后,SDWebui会将原始模型整个缓存到内存中,内存相较于fp8没有明显改善(反而更大);此外,由于P102只有PCIE1.1X4的带宽,会显著拖慢medvram将内存重新加载到显存的速度,故fp16+medvram情况下速率不如fp8+medvram
*2 爆16G内存(
** 此外,如果预先设定fp8后再重启sdwebui,内存占用仅3G;但是在加载模型时切换则总占用近9G
总结:fp8通过丢失部分精度来实现显存和内存的极限压缩,对内存和显存均不足的设备友好。但是fp16->fp8比fp32->fp16丢失的细节更多(比如背景)(尽管一眼看去没什么区别),而且并不能很好的节约时间(甚至延长时间,只能在medvram的情况下节约时间)。对于我来说,fp8的唯一用处在于能够让我的16G内存加载的下带lora的sdxl...
*2 爆16G内存(
** 此外,如果预先设定fp8后再重启sdwebui,内存占用仅3G;但是在加载模型时切换则总占用近9G
总结:fp8通过丢失部分精度来实现显存和内存的极限压缩,对内存和显存均不足的设备友好。但是fp16->fp8比fp32->fp16丢失的细节更多(比如背景)(尽管一眼看去没什么区别),而且并不能很好的节约时间(甚至延长时间,只能在medvram的情况下节约时间)。对于我来说,fp8的唯一用处在于能够让我的16G内存加载的下带lora的sdxl...