This media is not supported in your browser
VIEW IN TELEGRAM
Runwayml: анонсирует camera controls, успевает похайповать полчаса.
Опенсорс: hold my beer
DimensionX Lora для Cogvideo. Моё увожение!
Github
Опенсорс: hold my beer
DimensionX Lora для Cogvideo. Моё увожение!
Github
🔥42❤4
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
Очередной хайп-тул от китайцев из ByteDance — SeedEdit
По сути, это еще один text2photoshop или по простому текстовый редактор картинок, но качество — моё почтение (судя по черипикам, а демо на Hugging Face у меня пока лежит).
Результаты получаются очень похожими на то, что даёт наш Emu Edit из соседней команды.
Пробежался по тех-репорту. Деталей там зиро, так же как и novelty:
Все таже начинают с обычной pre-trained text2img диффузии и генерят пары синтетических данных - картинка и ее отредактированная версия с инструкцией. Далее это все дело сильно фильтрут, дообучают модель на отфильтрованных парах с инструкциями. Затем опять повторяют по кругу - генерят синтетику, фильтруют и дотренивают модель. Так несколько раз.
По архитектуре: вместо добавления оригинальной картинки на вход с помощью конкатенации дополнительных каналов как в Emu Edit, тут кормят фичи оригинальной картинки в контекст self-attention блоков. Эта фишечка не новая, так делали уже например в Story Diffusion для генерации консистентных кадров.
Иначе говоря, ничего нового в методе нет, челы просто очень хорошо приготовили синтетические данные (data is the king).
Больше примеров ниже.
Демо на Hugging Face
Пейпер
Project page
@ai_newz
По сути, это еще один text2photoshop или по простому текстовый редактор картинок, но качество — моё почтение (судя по черипикам, а демо на Hugging Face у меня пока лежит).
Результаты получаются очень похожими на то, что даёт наш Emu Edit из соседней команды.
Пробежался по тех-репорту. Деталей там зиро, так же как и novelty:
Все таже начинают с обычной pre-trained text2img диффузии и генерят пары синтетических данных - картинка и ее отредактированная версия с инструкцией. Далее это все дело сильно фильтрут, дообучают модель на отфильтрованных парах с инструкциями. Затем опять повторяют по кругу - генерят синтетику, фильтруют и дотренивают модель. Так несколько раз.
По архитектуре: вместо добавления оригинальной картинки на вход с помощью конкатенации дополнительных каналов как в Emu Edit, тут кормят фичи оригинальной картинки в контекст self-attention блоков. Эта фишечка не новая, так делали уже например в Story Diffusion для генерации консистентных кадров.
Иначе говоря, ничего нового в методе нет, челы просто очень хорошо приготовили синтетические данные (data is the king).
Больше примеров ниже.
Демо на Hugging Face
Пейпер
Project page
@ai_newz
🔥7
Forwarded from EJANERESS
Вчера был большой день в моей карьере артиста.
Моя работа A DREAM стала одним из победителей Artefact AI film Festival.
Был красивый показ и церемония награждения в кинотеатре mk2 bibliothèque в Париже, где я торжественно присутствовала. Прикрепляю фото и видео как это было.
А еще в ближайшем будущем планируется длительный показ в сети кинотеатров mk2, но об этом позже.
#jane
Моя работа A DREAM стала одним из победителей Artefact AI film Festival.
Был красивый показ и церемония награждения в кинотеатре mk2 bibliothèque в Париже, где я торжественно присутствовала. Прикрепляю фото и видео как это было.
А еще в ближайшем будущем планируется длительный показ в сети кинотеатров mk2, но об этом позже.
#jane
❤37🔥16👍7🤡3🤩2
This media is not supported in your browser
VIEW IN TELEGRAM
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing
Китайцы снова шатают опенсорс.
Обещают редактирование видео с сохранением изменений во времени, что обычно проблема для guided подходов, так как в опорных картинках (depth map например) форма объекта отличается от отредаченной.
Мне, конечно, интереснее всего style transfer, но с ним пока не очень понятно. Примеры есть - но такой уровень и animatediff 2023 выдаст.
По классике, код и веса выложили чуть ли не раньше пейпера.
подробнее
код
веса (правда там бардак)
@derplearning
Китайцы снова шатают опенсорс.
Обещают редактирование видео с сохранением изменений во времени, что обычно проблема для guided подходов, так как в опорных картинках (depth map например) форма объекта отличается от отредаченной.
Мне, конечно, интереснее всего style transfer, но с ним пока не очень понятно. Примеры есть - но такой уровень и animatediff 2023 выдаст.
По классике, код и веса выложили чуть ли не раньше пейпера.
подробнее
код
веса (правда там бардак)
@derplearning
👍11🔥1
OminiControl
И снова китайцы отжигают.
Запилили универсальный фреймворк для контролируемой генерации с помощью DiT.
Подходит как для внедрения объекта, так и в качестве привычных контролнетов. Но главное - весят эти модели ~0.1% от базовой, поскольку опорную картинку энкодят самой же базовой моделью. Те, что выложили для FLUX schnell весят 30-50мб :D
Если флакс влезает в ваш гпу, на сдачу можно взять пучок ominicontrolnetов и ни в чем себе не отказывать.
Прикрутил бы кто всю эту красоту к CogVideoX, а то сил нет уже грузить эти полуторагиговые контролнеты.
код
пейпер
модели
демо
датасет (subject)
@derplearning
И снова китайцы отжигают.
Запилили универсальный фреймворк для контролируемой генерации с помощью DiT.
Подходит как для внедрения объекта, так и в качестве привычных контролнетов. Но главное - весят эти модели ~0.1% от базовой, поскольку опорную картинку энкодят самой же базовой моделью. Те, что выложили для FLUX schnell весят 30-50мб :D
Если флакс влезает в ваш гпу, на сдачу можно взять пучок ominicontrolnetов и ни в чем себе не отказывать.
Прикрутил бы кто всю эту красоту к CogVideoX, а то сил нет уже грузить эти полуторагиговые контролнеты.
код
пейпер
модели
демо
датасет (subject)
@derplearning
🎉14👍4🔥3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
AI Video Composer
Лицехваты 🤗 упоролись и сделали управляемый текстом видеоредактор.
Так как под капотом большинства видео-тулзов все равно лежит ffmpeg в том или ином виде, слоняры решили не заморачиваться, и прикрутили к нему qwen2.5-coder. Теперь можно делать уйму вещей с видео, аудио, картинками, для которых раньше надо было лезть либо в видеоредактор, либо на стаковерфлоу.
Прикрутить виспер и будет голосовой фотошоп из bladerunner.
Ваистену, text2video который мы заслужили!
демо
х
@derplearning
Лицехваты 🤗 упоролись и сделали управляемый текстом видеоредактор.
Так как под капотом большинства видео-тулзов все равно лежит ffmpeg в том или ином виде, слоняры решили не заморачиваться, и прикрутили к нему qwen2.5-coder. Теперь можно делать уйму вещей с видео, аудио, картинками, для которых раньше надо было лезть либо в видеоредактор, либо на стаковерфлоу.
Прикрутить виспер и будет голосовой фотошоп из bladerunner.
Ваистену, text2video который мы заслужили!
демо
х
@derplearning
🔥20👍5😱1