RE:жиссёр | AI Edition

🎬 Как нейросети «собирают» видео и фото — заглянем под юбку визуальных моделей

Одна из ключевых технологий в нейросетевых видео/фото генераторах — это диффузионные модели. Они постепенно снижают энтропию, то есть уменьшают уровень случайности в изображении, шаг за шагом выделяя и упорядочивая значимые элементы. Процесс начинается с полного шума, который нейросеть воспринимает как абсолютно случайный набор пикселей. Затем модель использует обученные на большом количестве изображений алгоритмы, чтобы распознать и усилить признаки знакомых объектов (лица, текстуры, предметы). На каждом этапе модель постепенно "очищает" изображение, убирая шум и усиливая детали, которые соответствуют поставленной задаче или описанию. В итоге картинка становится всё более чёткой и реалистичной, так как нейросеть «узнаёт» и детализирует объекты, исходя из накопленного ранее опыта.

Вот как поэтапно работает диффузионная модель (на простом примере запроса «котик»): Если конкретные параметры (цвет шерсти, порода или поза) явно не заданы, нейросеть выбирает их исходя из наиболее часто встречавшихся вариантов в обучающем наборе данных. Например, типичный котик может быть полосатым или серым, сидеть или лежать в естественной позе — просто потому, что таких примеров было много при обучении модели.

Алгоритм работы

1. Начало (полный шум): Запрашиваете нейросеть создать котика. Модель начинает с хаотичного, случайного набора пикселей — полная абстракция, без малейшего намёка на кота.

2. Первый этап (грубое очертание): Модель начинает распознавать общие черты котов, с которыми она ранее сталкивалась. Появляются очертания: круглое туловище, намёк на уши, хвост.

3. Второй этап (уточнение форм): Картинка уже становится похожа на кота. Модель уточняет положение лап, головы, хвоста. Начинают прорисовываться глаза и нос.

4. Третий этап (детализация): Появляются текстуры шерсти, глаза приобретают чёткую форму, появляются усы. Изображение становится отчётливым и узнаваемым.

5. Финал (реализм): Модель устраняет последние шумы и неровности, прорисовывая реалистичные детали. Картинка становится чёт/кой, завершённой и максимально похожей на реального котика.

Теперь мы точно знаем, каких котиков больше всего любит Sora (ChatGPT)

👍2🔥1💅1🦄1😘1

183 views09:03