196K subscribers
3.56K photos
542 videos
17 files
4.3K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ Hailuo AI выпустили новую версию своего генератора видео T2V 01 Director, в которой упор сделан на контроль камеры!

Что нового:
- Уменьшена хаотичность движений генераций.
- Повышена точность управления.
- Улучшена эстетика движения камеры.

Модель управления и движения камеры работает просто великолепно.

📌 Попробовать

@ai_machinelearning_big_data


#video #ai #videogenerator #Hailuo
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 LayerAnimate — метод, позволяющий управлять отдельными слоями видео, меняя элементы переднего и заднего плана.

В отличие от существующих методов, которые рассматривают анимацию как единое целое, LayerAnimate предоставляет точечный контроль над каждым слоем, что делает процесс генераций более гибким и управляемым.

Как это работает?
LayerAnimate решает проблему ограниченности данных, с помощью конвейера обработки данных, включающего:

🟢Автоматизированную сегментацию элементов для разделения анимации на слои.

🟢Иерархическое слияние состояний движения для упрощения управления кадрами сцены.

🟢Улучшение согласованности движения для создания плавных и реалистичных анимаций.

Модель позволяет переключаться между различными статическими изображениями или динамическими видео без влияния на анимацию переднего плана.

Особенно интересно выглядит image-video с использованием скетча, вместо текстового описания с данными о движении, можно использовать набросок с траекторией движения сцены и получить готовую сцену.

Мастхэв для тех, кто работает с анимацией. Больше примеров можно посмотреть здесь.

🟡Github
🟡Статья
🟡Проект

@ai_machinelearning_big_data

#videogenerator #video #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Video-T1 — это метод в области машинного обучения, направленный на улучшение качества генерации видео посредством масштабирования вычислений на этапе инференса (Test-Time Scaling, TTS).

Вместо увеличения размеров модели или объема обучающих данных, Video-T1 использует дополнительные вычислительные ресурсы во время инференса для повышения качества генерированных видео.​

🌟 Как работает Video-T1:​

😶Случайный Линейный Поиск (Random Linear Search):

Процесс: Этот метод довольно прямолинейный. Берется несколько (N) разных случайных начальных "шумов" (Gaussian noise).

Для каждого из этих шумов запускается стандартный процесс генерации видео (пошаговое "очищение" от шума, denoising) от начала до конца, создавая N полных видео-кандидатов.

Специальные модели или алгоритмы, называемые "тестовыми верификаторами" (test verifiers), оценивают каждый из N сгенерированных видеороликов по разным критериям (например, соответствие тексту, качество изображения, правдоподобность движения).

Выбирается то видео, которое получило наивысшую оценку от верификаторов.

Недостаток: Требует генерации множества полных видео, что может быть очень затратно по времени и ресурсам, особенно для длинных видео.

😶Поиск "Дерево Кадров" (Tree of Frames - ToF):
Процесс: Этот метод более хитрый и потенциально более эффективный. Он разбивает генерацию на этапы и строит "дерево" возможных вариантов, отсекая бесперспективные "ветви" на ранних стадиях.

(a) Этап 1: Выравнивание на уровне изображений: Начинается генерация нескольких вариантов первых кадров или коротких начальных сегментов. Верификаторы оценивают, насколько хорошо эти начальные изображения соответствуют запросу. Этот этап важен, так как первые кадры сильно влияют на последующие. Отбираются лучшие "стартовые" ветви.

(b) Этап 2: Поиск с динамической проверкой: Для перспективных "ветвей" генерация продолжается кадр за кадром (или короткими клипами). На этом этапе верификаторы (возможно, с динамическими подсказками, адаптирующимися к уже сгенерированному) фокусируются на стабильности движения и физической правдоподобности. Они дают обратную связь, которая направляет "эвристический поиск" — алгоритм решает, какие "ветви" дерева продолжать растить, а какие — "подрезать" (prune) как неперспективные. Это экономит ресурсы, не тратя их на заведомо плохие продолжения.

(c) Этап 3: Финальная оценка: Когда несколько полных видео- "ветвей" сгенерированы, финальные верификаторы оценивают их общее качество и полное соответствие исходному текстовому запросу. Выбирается лучшее видео из финальных кандидатов.
Преимущество: Позволяет более эффективно использовать вычислительный бюджет, концентрируясь на наиболее обещающих вариантах генерации на каждом этапе.

Зачем нужен Video-T1:
1) Улучшение качества видео:​
Применение TTS позволяет существенно повысить качество сгенерированных видео и их соответствие заданным текстовым описаниям.​

2) Экономия ресурсов:​
Вместо дорогостоящего увеличения размеров моделей или повторного обучения на больших объемах данных, Video-T1 использует дополнительные вычисления на этапе инференса, что более экономично.​

3) Метод может быть адаптирован к различным моделям генерации видео, обеспечивая стабильное улучшение качества при увеличении вычислительных ресурсов во время инференса.​

TTS особенно хорошо работает для улучшения видео по параметрам, которые легко оценить:
* Соответствие общим запросам (например, генерация определенной сцены или объекта).
* Качество изображения (четкость, детализация).

🟡Github
🟡Paper
🟡Project

@ai_machinelearning_big_data


#ai #ml #videogenerator #video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM