Python RU
13.3K subscribers
899 photos
46 videos
38 files
1.14K links
Все для python разработчиков

админ - @notxxx1

@python_job_interview - Python собеседования

@ai_machinelearning_big_data - машинное обучение

@itchannels_telegram - 🔥лучшие ит-каналы

@programming_books_it - it книги

@pythonl

РКН: clck.ru/3Fmy2j
Download Telegram
Forwarded from Machinelearning
⚡️ HunyuanCustom: консистентная видеогенерация c инпейнтом и липсинком.

Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.

В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.

Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.

Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.

Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.

Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.

⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.

Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.


📌Лицензирование кода : Tencent Hunyuan Community License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Video #HunyuanCustom #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 HunyuanPortrait: код и веса.

Спустя чуть больше двух месяцев, Tencent опубликовала веса и код инференса проекта HunyuanPortrait - системы на основе диффузионных моделей для создания реалистичных анимированных портретов.

На вход подается видео, с которого движения переносятся на целевое изображение для "оживления". Режима "тext-to-motion", судя по всему - нет.

Под капотом - набор моделей на основе SVD, DiNOv2, Arc2Face и YoloFace.

Разработчики уверяют, что инференс заводится на 24 Гб VRAM и их метод лучше контролирует анимацию и делает более плавные переходы между кадрами, чем существующие аналоги.

⚠️ WebUI нет, адаптации под ComfyUI - пока тоже нет.


▶️Локальный инференс:

# Clone repo
git clone https://github.com/Tencent-Hunyuan/HunyuanPortrait

# Install requirements
pip3 install torch torchvision torchaudio
pip3 install -r requirements.txt

# Run
video_path="your_video.mp4"
image_path="your_image.png"

python inference.py \
--config config/hunyuan-portrait.yaml \
--video_path $video_path \
--image_path $image_path



🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanPortrait
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
📚 ArXiv Research Agent — отличный помощник для научных исследований.

Агент самостоятельно:
• Найдёт релевантные статьи с arXiv, bioRxiv, medRxiv и Semantic Scholar
• Проведёт полноценный литературный обзор
• Покажет, что упущено, и предложит, что добавить
• Даст инсайты и цитаты из миллионов научных работ
• Генерирует готовые конспекты
И др.

Вскоре обещают добавить поддержку MCP.

🔜 Попробовать: https://www.alphaxiv.org/assistant

@ai_machinelearning_big_data


#agent #ArXiv #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM