Derp Learning
13.1K subscribers
3.16K photos
908 videos
9 files
1.31K links
Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Download Telegram
Forwarded from EJANERESS
Вчера был большой день в моей карьере артиста.

Моя работа A DREAM стала одним из победителей Artefact AI film Festival.

Был красивый показ и церемония награждения в кинотеатре mk2 bibliothèque в Париже, где я торжественно присутствовала. Прикрепляю фото и видео как это было.

А еще в ближайшем будущем планируется длительный показ в сети кинотеатров mk2, но об этом позже.

#jane
37🔥16👍7🤡3🤩2
🤣83🫡15😁124💯3🔥1
Forwarded from Dev Meme / devmeme
😁24👍11😱1
This media is not supported in your browser
VIEW IN TELEGRAM
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

Китайцы снова шатают опенсорс.
Обещают редактирование видео с сохранением изменений во времени, что обычно проблема для guided подходов, так как в опорных картинках (depth map например) форма объекта отличается от отредаченной.

Мне, конечно, интереснее всего style transfer, но с ним пока не очень понятно. Примеры есть - но такой уровень и animatediff 2023 выдаст.

По классике, код и веса выложили чуть ли не раньше пейпера.

подробнее
код
веса (правда там бардак)

@derplearning
👍11🔥1
😢59😁39👍3🎉3🤣3🏆2🫡2🌚1💯1
OminiControl

И снова китайцы отжигают.
Запилили универсальный фреймворк для контролируемой генерации с помощью DiT.

Подходит как для внедрения объекта, так и в качестве привычных контролнетов. Но главное - весят эти модели ~0.1% от базовой, поскольку опорную картинку энкодят самой же базовой моделью. Те, что выложили для FLUX schnell весят 30-50мб :D

Если флакс влезает в ваш гпу, на сдачу можно взять пучок ominicontrolnetов и ни в чем себе не отказывать.

Прикрутил бы кто всю эту красоту к CogVideoX, а то сил нет уже грузить эти полуторагиговые контролнеты.

код
пейпер
модели
демо
датасет (subject)

@derplearning
🎉14👍4🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
AI Video Composer
Лицехваты 🤗 упоролись и сделали управляемый текстом видеоредактор.

Так как под капотом большинства видео-тулзов все равно лежит ffmpeg в том или ином виде, слоняры решили не заморачиваться, и прикрутили к нему qwen2.5-coder. Теперь можно делать уйму вещей с видео, аудио, картинками, для которых раньше надо было лезть либо в видеоредактор, либо на стаковерфлоу.

Прикрутить виспер и будет голосовой фотошоп из bladerunner.
Ваистену, text2video который мы заслужили!

демо
х

@derplearning
🔥20👍5😱1
😁28🤣11💯1
😁6514👍2😱1🤬1
Forwarded from эйай ньюз
CS492(D): Diffusion Models and Their Applications

Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.

Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.

Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI

https://mhsung.github.io/kaist-cs492d-fall-2024/

Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туторов, вот первый и второй

#ликбез

@ai_newz
🔥18👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Just a woman casually walking her pet raptor
Нейросети прекрасны
27😁5🤡4👍2
Forwarded from AI для Всех (Kirill)
This media is not supported in your browser
VIEW IN TELEGRAM
HunyuanVideo от Тencent

Тencent выпустила HunyuanVideo, крупнейшую модель генерации видео с открытым исходным кодом!

13B модель имеет унифицированную архитектуру для создания как изображений, так и видео.

HunyuanVideo объединяет многомодальную большую языковую модель (MLLM) в качестве текстового кодировщика, улучшая текст-видео алайнмент и способности рассуждения. Она также использует 3D VAE для эффективного сжатия видеоданных, что позволяет генерировать высококачественное видео с исходным разрешением.

Согласно результатам профессиональной оценки, Hunyuan Video превосходит предыдущие передовые модели, включая Runway Gen-3, Luma 1.6 и 3 самые эффективные китайские модели видеогенерации.

👨‍💻 Project page

🤗 Huggingface

💻 Git

📜 Paper

🎮 Demo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14😱4
Первый день анонсов от OpenAI был просто, гхм, потрясающим!

День первый: цунами
День второй: саранча?
😁41🔥52
Минутка классики
😁101🤣27👍1