Concise Research
1.12K subscribers
241 photos
222 links
Исследования AI глазами исследователя
Автор: @snk4tr Сергей Кастрюлин
Download Telegram
Extreme Generative Image Compression by Learning Text Embedding from Diffusion Models

В text-to-image генерации из текстового запроса получается картинка. Задача textual inversion в том чтобы делать image-to-text. В данном случае, авторы предлагают переводить картинку в текст (а если точнее - текстовый эмбединг), хорошо отражающий то что находится на изображении.

Эмбединг хранится как сжатое представление до момента востребования. Когда снова нужна картинка, делается text-to-image генерация. Для получения консистентных результатов, авторы предлагают свой “compression guidance”, который мало чем отличается от classification guidance.

Результаты генерации отражают семантику но не дают 100% совпадения с исходным изображением. За то подход позволяет достигнуть сверх высокой комперессии (<0.1 bpp). Кода нет.
👍2
Diffusion models are autoencoders

Крайне любопытный блогпост, цель которого - выстроить параллели между популярными концептами. Это означает, что диффузионки могут рассматриваться как более мощный инструмент для решения задач, которые раньше решались автоёнкодерами.

По мнению автора, основная причина превосходства диффузионок - их способность одновременно выучивать сразу несколько уровней шума.
Есть и интересное наблюдение (требующее подтверждения). Существует связь между уровнем шума и семантической сложностью признаков.

В статье много отсылок к более ранним работам по автоэнкодерам.
👍1
Rethinking Vision Transformers for MobileNet Size and Speed

CNN архитектуры MobileNet и EfficientNet были и остаются стандартными архитектурами моделей для деплоя на мобильные устройства. В то же время, трансформеры давно вытеснили CNN там где вычислительная эффективность не так критична. Цель статьи - задизайнить быструю и точную модель на основе трансформера для применения на мобильных устройствах.

Авторы используют старый добрый NAS для поиска оптимальной архитектуры. Основной вклад в том что они подмечают и исправляют недостатки предыдущих ViT NAS работ. Например, они предлагают более гибкое пространство поиска, разрешающее non-uniformity на каждой стадии.

Итоговая модель EfficientFormerV2 бьет MobileNetV2 аж на 4% на ImageNet 1K при ~ той же скорости и количестве параметров. Код есть.
👍2
FlexiViT: One Model for All Patch Sizes

ViT переводит картинки в последовательности разрезая их на патчи. Размер патчей контролирует баланс между скоростью и качеством. Более мелкие патчи дают большую точность, но увеличивают вычислительную нагрузку. Изменение размера патчей требует переобучения.

Авторы предлагают модель, которая учится на случайных размерах патчей. После этого, она может быть использована на патчах разного размера. Это значит, что можно контролировать баланс скорости/качества во время инференса в зависимости от целей. При этом показывается, что универсальная модель не уступает по качеству соответствующим моделям, натренированным на патчах фиксированного размера. Код и веса выложены.
👍2
Identifying Mislabeled Data using the Area Under the Margin Ranking

Датасеты содержат ошибки в разметке, которые пагубно влияют на качество натренированных на них моделей. Авторы предлагают метод поиска и удаления примеров с неправильной разметкой.

Метод заключается в логировании и анализе логитов в ходе обучения. Замечено, что в случае корректной разметки, значение логита для данного примера соответствующие верному классу будет выше значений других логитов. При этом, эта разница будет возрастать в ходе обучения.

Авторы проводят сначала пробное обучение во время которого идентифицируют некорректную разметку с помощью предложенной метрики. После этого, некорректные примеры удаляются по порогу значения метрики и обучение повторяется, но с уже более высоким качеством. В результате заметно улучшается качество на CIFAR100, Tiny ImageNet и WebVision. Код есть.
👍4
SinDiffusion: Learning a Diffusion Model from a Single Natural Image

Авторы решают задачу безусловной генерации изображений диффузионками. Они ориентируются на SinGAN и решают две его проблемы.

1. Для стабилизации обучения, в SinGAN используется progressive learning - разрешение сгенерированных изображений увеличивается по мере обучения. У этого подхода есть недостаток: первые изображения с низким разрешением могут быть ошибочны. Эти ошибки накапливаются с увеличением разрешения, приводя к не идеальным результатам. В случае диффузионок, каскад моделей больше не нужен, что упрощает пайплайн и улучшает качество.

2. Ранее для этой задачи использовали модели с большим receptive field (RF). Это позволяет увеличить качество сгенерированных изображений ценой их низкой вариативности. Авторы SinDiffusion уменьшают RF без значимой потери в качестве, но с увеличением вариативности. Важно, что они обнаруживают минимальный RF, после которого изображения теряют структуру.

В результате получаются визуально приятные изображения на нескольких задачах. Сравнения, в основном, с ГАНами: качественные и количественные (SIFID, LPIPS). Код есть.
👍1🔥1
Shift-tolerant Perceptual Similarity Metric

Замечено, что существующие full-reference метрики предлагают, что оцениваемые изображения выровнены. Небольшие сдвиги приводят к большим изменениям значений метрик, что не желательно.

Первая часть работы посвящена доказательству неадекватности реакции метрик на небольшие сдвиги. Авторы опрашивают людей показывают, что большинство респондентов не может отличить картинки если сдвиг достаточно мал, что противоречит показаниям метрик.

Основная часть посвящена анализу влияния архитектурных паттернов на чувствительность к сдвигам. Было проверено множество элементов, только часть из которых показали прибавку в качестве. Так, авторы установили, что для достижения цели нужно: уменьшить stride до 1, заменив способ уменьшения разрешении его на BlurPool, использовать reflect-padding вместо zero-padding, при этом межу max и mean лучше выбирать max.

В самой работе много результатов показывающих как влияние отдельных элементов, так и их комбинаций. В результате удается улучшить качество в случае маленьких сдвигов. Код есть.
Pragmatic Image Compression
for Human-in-the-Loop Decision-Making

NeurIPS’21 Procceedings

Стандартная постановка задачи компрессии изображений предполагает сохранение семантического сходства сжатого изображения с исходным безотносительно решаемой с его помощью задачи. Авторы статьи ставят эффективность такого подхода под сомнение и предлагают оптимизировать размер до тех пор пока хорошо решается конечная задача вне зависимости от того насколько сильно визуально меняется картинка. Например если задача - показать пользователю превью товаров на маретплейсе, то в конечном счете нас интересует чтобы поведение пользователя (количество и направленность кликов) не изменилось.

Авторы замечают, что такого результата можно добиться путем обучения копрессионной модели с дискриминатором. При этом важно, чтобы дискриминатор сравнивал не внешнее сходство изображений, а то каким будет действие пользователя в ответ на предложенный результат компрессии. Для этого собирается отдельный датасет с набором из нескольких конечных задач: чтение рукописных цифр, верификация фотографий лиц, шоппинг и игра в компьютерную игру.

За счет альтернативной постановки задачи, авторам удается побить JPEG в 3-4 раза, что не удивительно, ведь картинки меняются до неузнаваемости. Также я бы отметил довольно интересный способ верификации действий пользователей. В приложении есть примеры вопросов, задаваемых респондентам и очевидно, что они задизайнены очень аккуратно. Код есть.
Zero-shot Blind Image Denoising via Implicit Neural Representations

Задача Implicit Neural Representations (INRs) заключается в получении модели, отображающей координаты изображения в значения яркости. Таким образом получается continuous представление дискретной картинки.

Авторы заметили, что стандартные подходы для построения INR (например SIREN) сначала фитят изображение в целом, и только потом шум который на них присутствует. Более того, если добавить регуляризацию на значения весов модели, то она может быть в принципе не способна выучить шум из исходного изображения.

Это наблюдение предлагается использовать для задачи zero-shot денойзинга. Результат обучения SIREN с регуляризацией весов представляет собой качественный результат денойзинга без использования дополнительных данных. Кода нет, но реализация тривиальна.
👍2
Exploring CLIP for Assessing the Look and Feel of Images

Одной из известных стратегий в построении no-reference (NR) метрик оценки качества изображений (IQA) является использование предобученных моделей, способных извлекать богатые признаки.

В этой статье, авторы отказываются от прямой интерпретации признаков. Вместо этого, они предлагают использовать эмбединги предобученной модели CLIP. Для этого выделяются два стандартных токена: good image и bad image. Эмбединг каждого из них сравнивают с эмбедингом изображения. Отмасштабированная разница результатов сравнения и является предлагаемой метрикой.

У предложенного метода есть несколько существенных недостатков, часть которых адресуется в статье. Самый критический - неспособность модели адекватно реагировать на слишком технические описания вроде “Long exposure”, “Rule of thirds”, “Shallow DOF”.

Тем не менее, метод показывает достойное качество даже без дообучения на конретных NR IQA датасетах. Код есть.
An Image is Worth One Word: Personalizing
Text-to-Image Generation using Textual Inversion

Диффузионные модели, в целом, способны генерировать произвольные изображения из шума. Использование classification guidance помогает улучшить качество и направить процесс, получая объекты из целевого класса.

Параллельно с этим, развивались подходы classifier-free guidance. Так, например, в статье GLIDE было предложено адаптировать метод classifier-free guidance для текста. Таким образом, удается еще сильнее направить процесс диффузии, задавая вид конечного изображения с помощью подробного текстового описания.

Несмотря на всю силу текстовых описаний, иногда бывает трудно однозначно сформулировать конкретный концепт, который требуется изобразить. Может быть проще показать его с помощью нескольких примеров. Авторы статьи именно это и делают. Рассматриваемый метод текстовой инверсии позволяет выучить концепт с помощью нескольких примеров изображений. После этого, модель способна генерить вариации конкретного концепта на основе текстового описания.

Концепт формируется в качестве псевдо-слова S∗, которое генерируется путём обращения диффузионного процесса для небольшого набора (3-5) изображений концепта. Для этого минимизируется лосс латентной диффузии, при в этом качестве текстового условия используют случайные текстовые промпты вида “A photo of S∗”. После того как концепт сформирован, его можно подавать в виде S∗ в любой новый текстовый промпт для генерации новых изображений.

Несмотря на высокое качество генерации, у подхода есть существенный недостаток - он крайне тяжеловесен. На изучение одного концепта может уходить от получаса времени. Код и данные на сайте проекта.
👍4
Image Quality Assessment: Unifying Structure and Texture Similarity

Данная статья - пример того как нужно писать научные работы. Будучи опубликованной на не самой престижной конференции и не привнеся концептуальной новизны метода, она набрала более 200 цитирований за 2 года за счет альтернативного взгляда на проблему оценки качества и небольшого роста производительности на выбранных бенчмарках.

Это статья по метрике DISTS, основные положения которой следующие:
- Использовать VGG в качестве экстрактора признаков не плохо, нужно только заменить max pooling на L2 pooling потому что он лучше сохраняет информацию и не вносит артефакты;
- Если объединить пиксельное представление изображения с картами признаков из VGG конкатенацией каналов, можно получить лучшее из двух миров;
- Поканальные средние значения карт признаков — достаточно репрезентативные статистики для отражения текстуры изображений.

В статье даже доказывается лемма о том что метод оценки качества, основанный на взвешенной сумме значений статистик карт признаков нейросети, является метрикой в математическом смысле.

Сама же модель VGG обучается на комбинации датасетов KADID10k и DTD, что позволяет получить высокое значение SRCC на момент публикации на простых датасетах вроде LIVE и TID2013. Однако авторы не стали сравниваться, например, с уже существующим на тот момент PieAPP, который работает лучше как на простых датасетах вроде TID2013, так и на более сложном PIPAL. Реализацию метода можно найти в библиотеке piq.
Customizing Pre-Trained Diffusion Models for
Your Own Data

Under review for ICLR'23

В статье An Image is Worth One Word, авторы предлагали выучивать концепт объекта по 3-5 изображениям с целью получения нового слова S*, описывающего концепт. Дальше слова предлагалось использовать в обычных предложениях для получения новых изображений с объектом.

Авторы этой статьи идут дальше и предлагают выучивать концепт целого датасета. Такой подход является альтернативой часто используемого файн-тюнинга. Вместо того чтобы брать предобученную на большом наборе данных диффузионку и дообучать ее на своем датасете, можно выучить концепт своего датасета в виде слова S* и далее использовать его для генерации в обычных предложениях.

Метод получения S* аналогичен предложенном в An Image is Worth One Word, но содержит важную деталь. Рассматриваемый подход базируется на Stable Diffusion. Известно, что для этой модели одиного только текстового гайденса не достаточно, необходима хорошая инициализация. Для этого авторы предлагают два подхода: либо distribution initialization, в котором в качестве информации о распределении используется отдельно обученный VAE, либо Image initialization, в котором используется обычное изображение из целевого датасета.

Качество примеров из целевого датасета выше чем у Stable Diffusion в терминах KID. Распутанное внутреннее представление VAE позволяет манипулировать отдельными деталями изображений. Кода пока что нет.
🔥2👍1
Content-Diverse Comparisons improve IQA

В области оценки качества изображений, испорченные картинки обычно получают из исходных (“чистых”) путём добавления некоторых искажений (шум, размытие). Качество оценивают как субъективную ощущаемую похожесть исходного и испорченного изображения. Это делают путём проведения опросов и выражают в терминах mean opinion score (MOS). При этом, контент, содержащийся на изображении, обычно игнорируется.

Авторы статьи заметили, что:
1. Иногда для одинакового типа и силы искажений, MOS варьируется в зависимости от контента.
2. Иногда пары изображений с разными типами и силой искажений имеют одинаковые MOS.

Это ставит под сомнение эффективность обучения моделей исключительно на парах изображений с одинаковым контентом. На самом деле, ничто не мешает подавать произвольные пары изображений, заставляя модель делать предсказания о качестве с учетом контента. Это улучшение увеличивает разнообразие данных во время обучения и положительно влияет на качество метрики само по себе.

Но авторы на этом не останавливаются. Они замечают, что если переформулировать задачу и представить обучение как задачу ранжирования списков изображений, то это дает более глобальную информацию для модели и улучшает качество еще больше. Действительно, это позволяет использовать коэффициенты корреляции в качестве метрики напрямую. В статье предлагаются дифференцируемые регуляризаторы, аппроксимирующие ранговые методы корреляции, которые далее используются в ходе обучения моделей оценки качества. Лучший результат получается при комбинации PLCC, SRCC и KRCC.

В результате, полученная метрика выдает SRCC > 0.9 на TID2013 и SRCC > 0.95 на LIVE и CSIQ. Кода нет.
🔥2
A free energy principle for the brain

Классическая статья из области нейрофизиологии. Сформулированные в ней принципы лежат в основе многих современных работ из областей нейронаук и компьютерного зрения.

Статья вводит понятие принципа свободной энергии, заимствованное из физики. В общем виде, свободная энергия определяется двумя плотностями. Первая моделирует текущее состояние, вторая - генеративная, с помощью которой можно описывать сенсорную информацию и причинно-следственные связи. Это позволяет определить свободную энергию как скалярную функцию двух аргументов: состояния и сенсорной информации. В статье приводится многостраничный обзор того как именно выглядят предложенные функциональные формы.

Важно: принцип свободной энергии постулирует, что любой элемент системы, который способен изменяться, будет изменяться с целью минимизации свободной энергии. Авторы показывают, что этого свойства достаточно для объяснения механизмов не только в физических, но и в биологических системах.

При более детальном рассмотрении, авторы показывают достаточно интуитивный факт: биологические структуры отражают модель окружения, в которое они помещены.

Интереснее обстоят дела с генеративной компонентой.
Во-первых, показано, что когнитивные реакции на основе ощущений имеют иерархическую структуру: мозг устроен так на всех уровнях, что позволяет минимизировать свободную энергию за счет уменьшения ошибок предсказания следующих событий. Ошибка в предсказании (aka удивление) = большая свободная энергия.
Во-вторых, зрительная и другие системы имеют генеративную компоненту, позволяющую предсказывать мир вокруг и снижая сенсорную нагрузку. И тут мы снова возвращаемся к механизму удивления: если сгенеренное отличается от реальности -> большая свободная энергия.

В качестве эксперимента, авторы используют fMRI для проверки гипотезы о том, что реакция на неожиданный стимул выше реакции на ожидаемый и показывают какие именно отделы мозга занимаются подавлением реакции на ошибки в предсказании.
👍2
Diffusion Models for Adversarial Purification

Adversarial attacks - это наиболее часто обсуждаемый способ выведения нейросетевых алгоритмов из строя. Такие атаки, как правило, основаны на чрезмерной чувствительности алгоритмов к малейшим изменениям в структуре входных данных.

Существует два основных метода защиты.
Adversarial training изучает способы обучения нейросетей с целью устранения излишней чувствительности к мелким, потенциально опасным деталям.
Adversarial purification изучает методы защиты путем устранения потенциально вредоносных изменений во входных данных.

Авторы предлагают использовать диффузионный процесс для Adversarial purification. Перед тем как подавать потенциально опасное изображение на вход целевой модели (например классификатору), предлагается сначала зашумить его несколькими шагами диффузии, после чего обернуть процесс. В результате должно получиться изображение, визуально похожее на исходное, в котором убраны потенциально вредоносные мелкие детали.

В работе приводятся формальные доказательства обоснованности метода, а так же ablation на тему выбора наиболее важного параметра - глубины диффузии. Оказывается, что на практике оптимально иметь t* порядка 0.1 - 0.2. Такое зашумление уже дает хорошую защиту, но еще не приводит к потере семантически важных деталей. Страница проекта с кодом и объяснениями от авторов.
VCRNet: Visual Compensation Restoration Network for No-Reference Image Quality Assessment

В no-reference оценке качества изображений существует подход, вдохновленный работами из области нейрофизиологии о free energy principle. Суть в том, что органы чувств человека изначально получают довольно шумные данные. Например зрительная система сама по себе дает мозгу данные низкого разрешения. Далее из них генерируются качественные представления, которые мы и видим.

В подходах оценки качества, вдохновленных free energy principle, также предлагается на первом этапе генерировать хорошее изображение из плохого. После этого, качество оценивается как расстояние между исходной и новой, “хорошей” картинкой.

Предыдущие работы RAN4IQA и Hallucinated-IQA для генерации использовали ГАНы, у которых есть известные проблемы со стабильностью обучения и высокой вероятностью появления артефактов.

В этой работе авторы предлагают отказаться от ГАНов в пользу кастомной архитектуры, состоящей из двух частей. Первая часть представляет собой U-Net-подобный энкодер-декодер и занимается восстановлением “хорошего” изображения из исходного. Вторая часть - предобученный и замороженный EfficientNet-B0, который служит исключительно экстрактором признаков. Далее часто признаков из обеих сетей конкатенируются и подаются в полносвязную голову, которая и выдаёт финальную оценку. Функция потерь состоит из взвешенной суммы 1) L1 ошибки между референсным “чистым” и восстановленным изображением 2) L1 ошибки между референсной и полученной картами ошибок.

Не смотря на SOTA результат на большом наборе датасетов, стоит отметить, что перед валидацией авторы обучаются на части данных каждого из них в отдельности. При этом обобщаемость метрики остается под вопросом. Код и веса выложены.
AnoDDPM: Anomaly Detection with Denoising Diffusion Probabilistic Models using Simplex Noise

Диффузионные модели в ходе обучения неявным образом выучивают распределение данных. За счет этого они способны генерировать качественные примеры из распределения. При этом генерация не обязана начинаться с чистого шума. В статьях DiffPure и Label-Efficient Semantic Segmentation with Diffusion Models уже было показано, что расшумление частично зашумленных изображений может использоваться для противостояния адверсариал атакам и семантической сегментации.

В этой статье, авторы предлагают эксплуатировать неспособность DDPM надежно восстанавливать объекты вне выученного распределения. Утверждается, что если достаточно сильно зашумить аномальное изображение, то в результате обратной диффузии получится объект из исходного распределения.

Гипотеза проверяется на медицинских изображениях. Диффузионную модель обучают на МРТ мозга здоровых людей. Далее в модель подают сканы с опухолями и обнаруживают, что при достаточной глубине диффузии на выходе получаются изображения без опухолей. При этом, пописксельная разница между исходным и полученным изображениями хорошо коррелирует с сегментационной маской аномалии (опухоли).

Важно отметить, что используемый в работе медицинский датасет достаточно мал (~25k изображений для обучения), при этом аномалии очевидны и занимают большую площадь на изображении. Код есть.
👍2
Null-text Inversion for Editing Real Images using Guided Diffusion Models

Диффузионные модели, направляемые текстовым описанием, вроде DALL-E 2, Imagen, Stable Diffusion способны генерировать качественные изображения из шума. В то же время, при работе с этими моделями может не хватать контроля над деталями результатов генерации. Например, не очень понятно как изменять отдельные характеристики получаемых изображений такие как цвет волос или эмоции на лицах генерируемых людей. Модели не всегда достаточно чувствительны к таким подробностям в исходных текстовых описаниях.

В статье SDEdit предлагается частично зашумлять изображения, после чего “расшумлять” с использованием конкретизированного текстового описания. Подход работает, но приводит к потере деталей из исходного изображения.

В статьях Blended Latent Diffusion и Blended Diffusion for Text-driven Editing of Natural Images предлагается запросить у пользователя маску, которая бы выделяла изменяемый регион. Эти подходы сильно зависят от качества масок, получение которых может быть не удобно на практике.

Статьи Imagic и UniTune работают хорошо, но требуют дообучение модели Imagen.

В рассматриваемой статье, авторы предлагают двухстадийный метод. На первой стадии, проводится инверсия DDIM сэмплирования. Важно, что целью этой операции является не получение исходного шума с которого началась генерация изображения. Вместо этого, авторы оценивают траекторию как бы “запоминая” промежуточные шаги. Далее они используются для того чтобы направить генерацию измененного изображения.

Основной идеей статьи является введение метода Null-text Inversion, который эксплуатирует важное свойство classifier-free guidance, а именно использование двух текстовых описаний. Первое - основное, которому и должно соответствовать изображение. Второе называется null text и, как правило, представляет собой пустую строку. Идея в том, чтобы, используя текстовую инверсию, оптимизировать текстовое описание, соответствующее изображению. Теперь получается, что изначальная строка и результат оптимизации отражают одну и ту же информацию. Значит, если поменять какую-то деталь в изначальной строке и запустить семплирование, на выходе получится изображение, на котором изменится только часть ответственная за изменение в текстовом описании.

К существенным недостаткам метода можно отнести высокую вычислительную сложность. Код есть.
👍2
Domain Expansion of Image Generators

В задаче доменной адаптации, модель, предобученную на исходном распределении, учат работать на целевом. Побочным эффектом является забывание моделью исходного домена и, как следствие, ухудшение работы на нём.

Вместо этого, авторы предлагают расширять домен таким образом, чтобы сделать модель способной генерировать новый класс изображений. В то же время, генеративные свойства модели в исходном домене должны быть сохранены.

Метод основан наблюдении: большинство современных генеративных моделей работают в некотором низкоразмерном латентном пространстве. При этом, было показано, что среди всей совокупности координат, находятся такие, движение вдоль которых не приводит к видимым изменениям на генерируемых изображениях. Авторы называют их бездействующими (dormant).

Таким образом, задача заключается в том чтобы обучить модель реагировать нужным образом на изменение исходно бездействующих координат, не меняя при этом все остальные. Делается это с помощью дообучения с использованием специального регуляризатора, заставляющего модель двигаться исключительно в направлении изменение выбранной бездействующей координаты. В случае, если нужно расширить домен на несколько новых видов изображений, выбирается новая бездействующая координата и процесс повторяется.

Важным побочным эффектом метода является то, что новые координаты, по умолчанию, получаются распутанными в смысле возможности контролировать степень выраженности конкретной характеристики на изображении.

Авторы проводят эксперименты с архитектурой StyleGAN и показывают качество генерации на исходном и добавленном доменах сопоставимое с домен-специфичными генераторами. Сайт проекта, код обещают выложить.
👍2
Cold Diffusion: Inverting Arbitrary Image
Transforms Without Noise


Распространенные сегодня диффузионные модели базируются на принципе зашумления-расшумления большого числа изображений. При этом, возникает вопрос о возможности использования других методов изменения изображений.

Авторы статьи выбирают несколько альтернативных трансформаций: размытие, маскирование, пикселизация и др. После этого, они предлагают способы рандомизации процессов трансформации для прямого диффузионного процесса с целью соблюдения требования стохастичности диффузии. Например для размытия просто варьируют параметры гауссовских ядер.

Однако, для генерации требуется, сформулировать распределение из которого будут семплироваться объекты. В случае, например, размытия аналитическая формулировка отсутствует, поэтому авторы моделируют его смесью гауссиан. Это решает проблему, но приводит к низкой вариативности генерируемых объектов. В итоге, авторы не смогли избежать небольшого добавления шума для увеличения разнообразия результатов.

Важным элементом работы является предложенный альтернативный алгоритм семплирования. В приложении приводятся пояснения, показывающие, что предложенный семплер аналогичен DDIM. Принципиальная разница заключается в порядке оценки шума и чистого изображения.

Эксперименты по генерации, удалению размытия, инпейтингу и другим задачам показывают, что использование трансформаций отличных от шума для диффузии концептуально возможно. В то же время, значения FID заметно уступают DDIM + полностью отказаться от шума для генерации так и не получилось. Код есть.
👍2