This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
EchoMimic - проект инновационного подхода, комбинирующий использование аудиодорожки и маркеры лиц для создания динамичных портретов сохраняя реалистичность исходного иpображения.
Mетод EchoMimic построен на моделях Stable Diffusion и использует модули Reference U-Net, Landmark Encoder и Audio Encoder для кодирования референсных изображений, характеристик лиц и аудио соответственно. На финальном этапе, Attention Layers декодирует временную динамику для создания последовательностей согласованных по времени видео.
Согласно проведенным в ходе разработки бенчмаркам, EchoMimic демонстрирует лучшие результаты по сравнению с другими проектами, такими как: SadTalker, AniPortrait, V-Express и Hallo в различных наборах данных, достигая высоких показателей по метрикам FID, FVD, SSIM и E-FID.
Рекомендованные ресурсы - от 16 GB VRAM, но EchoMimic работает и на 8 GB VRAM (увеличивается время инференса).
⚠️ В процессе установки скачиваются дополнительные модели:
⚖️ Лицензирование: Apache-2.0
@ai_machinelearning_big_data
#Image2Animate #LipSync #ML #Diffusers #EchoMimic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Sonic генерирует говорящих аватаров (или даже поющих!) с выразительной мимикой и качественным липсинком.
👉 Что нового?
1️⃣ Оживляем статичные изображения на вход подается одна фотография + любое аудио → речь, пение
2️⃣ Temporal Audio Learning — использует аудио дорожку для точной синхронизации губ и естественной мимики
3️⃣ Decoupled Motion Control — управляет движением головы и выражениями лица отдельно
4️⃣ Time-aware Fusion — обеспечивает плавный переход между кадрами для непрерывного видеоряда
▪ Модель демонстрирует очень качественный липсинк, разнообразие движений головы и мимики, натуральность и стабильность анимаций
▪ Поддерживает генерацию длинных видео (подойдет для влогов, реклаы) в один клик
▪ Кинематографичное качество: реалистичные позы, эмоции и сохранение идентичности референса
#ml #lipsync #opensource #hunyuan
Please open Telegram to view this post
VIEW IN TELEGRAM