Derp Learning

Runwayml: анонсирует camera controls, успевает похайповать полчаса.
Опенсорс: hold my beer

DimensionX Lora для Cogvideo. Моё увожение!

Github

🔥42❤4

12.9K views17:49

Derp Learning

Forwarded from Dev Meme / devmeme

😁37😢9🤩7👍6❤3🤗1

3.94K views08:29

Derp Learning

Forwarded from эйай ньюз

1:02

Media is too big

VIEW IN TELEGRAM

Очередной хайп-тул от китайцев из ByteDance — SeedEdit

По сути, это еще один text2photoshop или по простому текстовый редактор картинок, но качество — моё почтение (судя по черипикам, а демо на Hugging Face у меня пока лежит).

Результаты получаются очень похожими на то, что даёт наш Emu Edit из соседней команды.

Пробежался по тех-репорту. Деталей там зиро, так же как и novelty:
Все таже начинают с обычной pre-trained text2img диффузии и генерят пары синтетических данных - картинка и ее отредактированная версия с инструкцией. Далее это все дело сильно фильтрут, дообучают модель на отфильтрованных парах с инструкциями. Затем опять повторяют по кругу - генерят синтетику, фильтруют и дотренивают модель. Так несколько раз.

По архитектуре: вместо добавления оригинальной картинки на вход с помощью конкатенации дополнительных каналов как в Emu Edit, тут кормят фичи оригинальной картинки в контекст self-attention блоков. Эта фишечка не новая, так делали уже например в Story Diffusion для генерации консистентных кадров.

Иначе говоря, ничего нового в методе нет, челы просто очень хорошо приготовили синтетические данные (data is the king).

Больше примеров ниже.

Демо на Hugging Face
Пейпер
Project page

@ai_newz

🔥7

3.81K views11:57

Derp Learning

Forwarded from Dankest Memes // Данкест Мемс

😁43❤30🤣4👀1

4.64K views14:03

Derp Learning

Forwarded from Dev Meme / devmeme

😁31💯4

4.9K views06:25

Derp Learning

Forwarded from EJANERESS

This media is not supported in your browser

VIEW IN TELEGRAM

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Вчера был большой день в моей карьере артиста.

Моя работа A DREAM стала одним из победителей Artefact AI film Festival.

Был красивый показ и церемония награждения в кинотеатре mk2 bibliothèque в Париже, где я торжественно присутствовала. Прикрепляю фото и видео как это было.

А еще в ближайшем будущем планируется длительный показ в сети кинотеатров mk2, но об этом позже.

#jane

❤37🔥16👍7🤡3🤩2

5.43K views11:45

Derp Learning

🤣83🫡15😁12❤4💯3🔥1

5.72K views12:08

Derp Learning

Forwarded from Love. Death. Transformers.

https://huggingface.co/Efficient-Large-Model/Sana_1600M_512px

вышла

демо: https://nv-sana.mit.edu/

huggingface.co

Efficient-Large-Model/Sana_1600M_512px · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

4.44K views11:10

Derp Learning

Forwarded from Dev Meme / devmeme

😁24👍11😱1

5.06K views14:23

Derp Learning

This media is not supported in your browser

VIEW IN TELEGRAM

https://x.com/fofrAI/status/1860108591002452479

😁38😱11❤4🔥2

12.3K views12:30

Derp Learning

0:01

This media is not supported in your browser

VIEW IN TELEGRAM

StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

Китайцы снова шатают опенсорс.
Обещают редактирование видео с сохранением изменений во времени, что обычно проблема для guided подходов, так как в опорных картинках (depth map например) форма объекта отличается от отредаченной.

Мне, конечно, интереснее всего style transfer, но с ним пока не очень понятно. Примеры есть - но такой уровень и animatediff 2023 выдаст.

По классике, код и веса выложили чуть ли не раньше пейпера.

подробнее
код
веса (правда там бардак)

@derplearning

👍11🔥1

4.26K viewsedited 10:20

Derp Learning

Forwarded from Love. Death. Transformers.

😢59😁39👍3🎉3🤣3🏆2🫡2🌚1💯1

3.94K views21:06

Derp Learning

OminiControl

И снова китайцы отжигают.
Запилили универсальный фреймворк для контролируемой генерации с помощью DiT.

Подходит как для внедрения объекта, так и в качестве привычных контролнетов. Но главное - весят эти модели ~0.1% от базовой, поскольку опорную картинку энкодят самой же базовой моделью. Те, что выложили для FLUX schnell весят 30-50мб :D

Если флакс влезает в ваш гпу, на сдачу можно взять пучок ominicontrolnetов и ни в чем себе не отказывать.

Прикрутил бы кто всю эту красоту к CogVideoX, а то сил нет уже грузить эти полуторагиговые контролнеты.

код
пейпер
модели
демо
датасет (subject)

@derplearning

🎉14👍4🔥3❤1

4.78K viewsedited 20:59

Derp Learning

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

AI Video Composer
Лицехваты 🤗 упоролись и сделали управляемый текстом видеоредактор.

Так как под капотом большинства видео-тулзов все равно лежит ffmpeg в том или ином виде, слоняры решили не заморачиваться, и прикрутили к нему qwen2.5-coder. Теперь можно делать уйму вещей с видео, аудио, картинками, для которых раньше надо было лезть либо в видеоредактор, либо на стаковерфлоу.

Прикрутить виспер и будет голосовой фотошоп из bladerunner.
Ваистену, text2video который мы заслужили!

демо
х

@derplearning

🔥20👍5😱1

12.1K viewsedited 22:49

About

Blog

Apps

Platform