🎬 Как нейросети «собирают» видео и фото — заглянем под юбку визуальных моделей
Одна из ключевых технологий в нейросетевых видео/фото генераторах — это диффузионные модели. Они постепенно снижают энтропию, то есть уменьшают уровень случайности в изображении, шаг за шагом выделяя и упорядочивая значимые элементы. Процесс начинается с полного шума, который нейросеть воспринимает как абсолютно случайный набор пикселей. Затем модель использует обученные на большом количестве изображений алгоритмы, чтобы распознать и усилить признаки знакомых объектов (лица, текстуры, предметы). На каждом этапе модель постепенно "очищает" изображение, убирая шум и усиливая детали, которые соответствуют поставленной задаче или описанию. В итоге картинка становится всё более чёткой и реалистичной, так как нейросеть «узнаёт» и детализирует объекты, исходя из накопленного ранее опыта.
Вот как поэтапно работает диффузионная модель (на простом примере запроса «котик»): Если конкретные параметры (цвет шерсти, порода или поза) явно не заданы, нейросеть выбирает их исходя из наиболее часто встречавшихся вариантов в обучающем наборе данных. Например, типичный котик может быть полосатым или серым, сидеть или лежать в естественной позе — просто потому, что таких примеров было много при обучении модели.
Алгоритм работы
1. Начало (полный шум): Запрашиваете нейросеть создать котика. Модель начинает с хаотичного, случайного набора пикселей — полная абстракция, без малейшего намёка на кота.
2. Первый этап (грубое очертание): Модель начинает распознавать общие черты котов, с которыми она ранее сталкивалась. Появляются очертания: круглое туловище, намёк на уши, хвост.
3. Второй этап (уточнение форм): Картинка уже становится похожа на кота. Модель уточняет положение лап, головы, хвоста. Начинают прорисовываться глаза и нос.
4. Третий этап (детализация): Появляются текстуры шерсти, глаза приобретают чёткую форму, появляются усы. Изображение становится отчётливым и узнаваемым.
5. Финал (реализм): Модель устраняет последние шумы и неровности, прорисовывая реалистичные детали. Картинка становится чёт/кой, завершённой и максимально похожей на реального котика.
Теперь мы точно знаем, каких котиков больше всего любит Sora (ChatGPT)
Одна из ключевых технологий в нейросетевых видео/фото генераторах — это диффузионные модели. Они постепенно снижают энтропию, то есть уменьшают уровень случайности в изображении, шаг за шагом выделяя и упорядочивая значимые элементы. Процесс начинается с полного шума, который нейросеть воспринимает как абсолютно случайный набор пикселей. Затем модель использует обученные на большом количестве изображений алгоритмы, чтобы распознать и усилить признаки знакомых объектов (лица, текстуры, предметы). На каждом этапе модель постепенно "очищает" изображение, убирая шум и усиливая детали, которые соответствуют поставленной задаче или описанию. В итоге картинка становится всё более чёткой и реалистичной, так как нейросеть «узнаёт» и детализирует объекты, исходя из накопленного ранее опыта.
Вот как поэтапно работает диффузионная модель (на простом примере запроса «котик»): Если конкретные параметры (цвет шерсти, порода или поза) явно не заданы, нейросеть выбирает их исходя из наиболее часто встречавшихся вариантов в обучающем наборе данных. Например, типичный котик может быть полосатым или серым, сидеть или лежать в естественной позе — просто потому, что таких примеров было много при обучении модели.
Алгоритм работы
1. Начало (полный шум): Запрашиваете нейросеть создать котика. Модель начинает с хаотичного, случайного набора пикселей — полная абстракция, без малейшего намёка на кота.
2. Первый этап (грубое очертание): Модель начинает распознавать общие черты котов, с которыми она ранее сталкивалась. Появляются очертания: круглое туловище, намёк на уши, хвост.
3. Второй этап (уточнение форм): Картинка уже становится похожа на кота. Модель уточняет положение лап, головы, хвоста. Начинают прорисовываться глаза и нос.
4. Третий этап (детализация): Появляются текстуры шерсти, глаза приобретают чёткую форму, появляются усы. Изображение становится отчётливым и узнаваемым.
5. Финал (реализм): Модель устраняет последние шумы и неровности, прорисовывая реалистичные детали. Картинка становится чёт/кой, завершённой и максимально похожей на реального котика.
Теперь мы точно знаем, каких котиков больше всего любит Sora (ChatGPT)
👍2🔥1💅1🦄1😘1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🚗 Как видео-нейросети помогают сделать кадры более кинематографичными и не потратить бюджет Парагвая
Мы уже более 8 лет снимаем автомобильные ралли-рейды. Лучше нас это, кажется, никто не делает, даже крупнейший марафон "Silk Way" работает с нами. Но в этом году я решил попробовать кое-что новое прямо на трассе ралли "Северный Лес": из фотки в видео при помощи нейросети.
📸 Фото вместо камеры
Смысл простой: когда нет лишних рук, фоллоу-фокуса и времени, ты просто делаешь фото. А дальше — запускаешь генерацию.
Вместо 30 минут на постановку, слайдер и ожидание идеального света — у тебя уже готов динамичный кадр, причем при наличие сети прямо на телефоне. Плавный облет, блики в объектив, dolly - все что вы хотели но боялись тащить ))))
Все сцены, которые вы видите в этом посте, были созданы именно так.
🙋♂️ Когда зрители становятся операторами
Один из самых интересных кейсов — фото, присланные зрителями. Ты не можешь быть везде. Но если кто-то снял аварию, прыжок или эффектный момент — ты можешь оживить этот кадр и вставить его в сюжет.
⚠️ Что важно помнить
Нет, не всё выходит идеально. Иногда нейросеть выдаёт что-то странное. Иногда анимация не туда. Но даже если не получилось с первого раза — попробуешь снова, или пойдёшь другим путём. Главное — это возможность сделать "план Б".
💡 Вывод
Нейросеть растормаживает фантазию. Сколько раз я думал: «Вот бы сейчас сделать тот или иной кадр», — но техники нет, времени нет, через 30 минут закат и конец съёмочного дня. Нейронки дают ощущение, что всё возможно, жалко что только ощущение (пока). В любом случае, это прекрасный инструмент нового времени.
Посмотрим, что будет дальше. А пока — используем то, что работает здесь и сейчас.
Мы уже более 8 лет снимаем автомобильные ралли-рейды. Лучше нас это, кажется, никто не делает, даже крупнейший марафон "Silk Way" работает с нами. Но в этом году я решил попробовать кое-что новое прямо на трассе ралли "Северный Лес": из фотки в видео при помощи нейросети.
📸 Фото вместо камеры
Смысл простой: когда нет лишних рук, фоллоу-фокуса и времени, ты просто делаешь фото. А дальше — запускаешь генерацию.
Вместо 30 минут на постановку, слайдер и ожидание идеального света — у тебя уже готов динамичный кадр, причем при наличие сети прямо на телефоне. Плавный облет, блики в объектив, dolly - все что вы хотели но боялись тащить ))))
Все сцены, которые вы видите в этом посте, были созданы именно так.
🙋♂️ Когда зрители становятся операторами
Один из самых интересных кейсов — фото, присланные зрителями. Ты не можешь быть везде. Но если кто-то снял аварию, прыжок или эффектный момент — ты можешь оживить этот кадр и вставить его в сюжет.
⚠️ Что важно помнить
Нет, не всё выходит идеально. Иногда нейросеть выдаёт что-то странное. Иногда анимация не туда. Но даже если не получилось с первого раза — попробуешь снова, или пойдёшь другим путём. Главное — это возможность сделать "план Б".
💡 Вывод
Нейросеть растормаживает фантазию. Сколько раз я думал: «Вот бы сейчас сделать тот или иной кадр», — но техники нет, времени нет, через 30 минут закат и конец съёмочного дня. Нейронки дают ощущение, что всё возможно, жалко что только ощущение (пока). В любом случае, это прекрасный инструмент нового времени.
Посмотрим, что будет дальше. А пока — используем то, что работает здесь и сейчас.
❤6🔥1🎅1🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
9 мая особый праздник, специально к нему мы при помощи нейросетей подготовили это проект.
Для меня это своего рода magnum opus применения нейросетей в телевидении.
Мы взяли фронтовые кадры Эммануила Евзирихина, которыми поделился его внук и мой коллега по телеканалу 360 - Михаил Евзирихин. C помощью нейросети превратили статические фотографии в короткие фильмы: дым клубится, траки танка вращаются, ветви качаются, люди оживают.
Каждый ролик длится около 40 секунд, в нём живут люди и техника Сталинграда, Восточной Пруссии, Праги. Меня всегда завораживала мысль, что за каждой картиной, фотографией, иллюстрацией скрыта история, которую мы зачастую не знаем просто смотря на изображение. Мы попытались немного выйти за край статического изображения и дать почувствовать при каких обстоятельствах, условиях был сделан снимок.
Для меня это своего рода magnum opus применения нейросетей в телевидении.
Мы взяли фронтовые кадры Эммануила Евзирихина, которыми поделился его внук и мой коллега по телеканалу 360 - Михаил Евзирихин. C помощью нейросети превратили статические фотографии в короткие фильмы: дым клубится, траки танка вращаются, ветви качаются, люди оживают.
Каждый ролик длится около 40 секунд, в нём живут люди и техника Сталинграда, Восточной Пруссии, Праги. Меня всегда завораживала мысль, что за каждой картиной, фотографией, иллюстрацией скрыта история, которую мы зачастую не знаем просто смотря на изображение. Мы попытались немного выйти за край статического изображения и дать почувствовать при каких обстоятельствах, условиях был сделан снимок.
❤🔥6🔥2❤1
Media is too big
VIEW IN TELEGRAM
Вот и состоялась премьера, одной из самой сложной моей работы в нейросетях. У этого проекта интересная предыстория, 2 года назад от дирекции ралли поступил, запрос сделать аниме, надо понимать что с жанром мультипликации я не работал никогда, нанял художника и ..... результат был мягко сказать не очень потратив 100к решил что не мое. И вот спустя 2 года, при помощи Sora images, Kling и прочих нейронных друзей удалось закрыть гештальт. Странно на это смотреть и понимать что рисовать то ты по сути не умеешь.
❤10🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Да, это был долгий этап «занят — перезвоню».
Возвращаюсь и обещаю выкладывать: видео-эксперименты, кейсы с площадки и честные выводы — что работает, а что нет. Вот вам ролик на злобу дня для затравки!
Возвращаюсь и обещаю выкладывать: видео-эксперименты, кейсы с площадки и честные выводы — что работает, а что нет. Вот вам ролик на злобу дня для затравки!
2😁3🤣3👻2
Нейро-хак: правим 3D-сцену без рендера — кейс с МС-21
Из рубрики «лайфхаки/нейрохак». Мои друзья делали проект с самолётом МС-21. Графический дизайнер для «обогащения» добавил в 3D-сцену лишние элементы — ракеты и ящики с патронами. Заказчику это, мягко говоря, не понравилось: военный антураж рядом с гражданским самолётом — не то настроение.
Сроки поджимали, пересобирать и перерендеривать сцену было долго. Решение: зачистили сцену от спорных объектов и выгнали ключевые фазы в виде серии статичных кадров. Дальше подключили нейросеть Pixverse — она умеет собирать плавное движение по последовательности из нескольких изображений (до 7 штук). Результат вышел близким к идеалу — и занял около семи минут.
Один мой друг сравнил это с классической мультипликацией: ведущий художник рисует ключевые кадры, а «кадровщики» дорисовывают промежуточные. Здесь роль «кадровщиков» берёт на себя нейросеть.
Из рубрики «лайфхаки/нейрохак». Мои друзья делали проект с самолётом МС-21. Графический дизайнер для «обогащения» добавил в 3D-сцену лишние элементы — ракеты и ящики с патронами. Заказчику это, мягко говоря, не понравилось: военный антураж рядом с гражданским самолётом — не то настроение.
Сроки поджимали, пересобирать и перерендеривать сцену было долго. Решение: зачистили сцену от спорных объектов и выгнали ключевые фазы в виде серии статичных кадров. Дальше подключили нейросеть Pixverse — она умеет собирать плавное движение по последовательности из нескольких изображений (до 7 штук). Результат вышел близким к идеалу — и занял около семи минут.
Один мой друг сравнил это с классической мультипликацией: ведущий художник рисует ключевые кадры, а «кадровщики» дорисовывают промежуточные. Здесь роль «кадровщиков» берёт на себя нейросеть.
👍4❤1