Concise Research

Image Super-Resolution via Iterative Refinement
IEEE TPAMI 2022

Ранее мы обсуждали применение диффузионных моделей для image2image задач:
— FDM - удаляем артефакты, контролируя MDF и NPS;
— DDRM - удаляем артефакты в случае, если знаем семейство PSF;
— Palette - стабильный бейзлайн для inpainting, outpainting, colorization, JPEG uncompression.

В этой работе предлагается модель SR3. Мотивация применения DDPM для задачи в следующем:
1. Регрессионным SR моделям трудно работать с большими upscaling factors (> x2), потому что в single-image постановке нет избыточной информации, а значит требуется её генерировать. Следовательно, нужно применять лучшие генеративные модели.
2. DDPM лучше чем GAN выучивают мелкие моды => потенциально меньше проблем с обучение и обобщаемостью.

Прямой процесс мало чем отличается от принятого для генерации: модель зашумляется по линейному расписанию с сохранением дисперсии. Зная расписание заранее можно получать шумное изображение y_t для шага t за константное время и сразу учиться предсказывать y_(t-1) c L1/L2 лоссом. На практике же, во время обратного процесса предсказывается аддитивный шум шага t. Также к расшумляемому изображению y_t конкатенируется исходная low-res картинка x, что позволяет направить генерацию именно в сторону восстановления исходного изображения, а не генерации какого-то произвольного.

Авторы используют архитектуру U-Net с residual блоками из BigGAN, в которых skip connections рескейлят на 1/sqrt(2). Внутри U-Net x конкатенируют с промежуточными признаками в апсемплингах. Для этого x интерполируют бикубиком. По заявлениям авторов, более сложные методы обуславливания не дают особой разницы в результатах и поэтому они используют простую конкатенацию.

Модель показывает SOTA экспериментах для 8х, 4х и каскадной 8х (64×64 → 256×256 → 1024×1024) генерации по метрике fool rate: респонденты путают реальную и сгенерированную картинку в около 50% случаев. С практической точки зрения авторы рекомендуют делать 8х генерацию каскадным типом. Код только неофициальный.

270 viewsSergey Kastryulin, 11:19