PEARL
Модель для понимания персонализированных видеопотоков.
Распознает определённые понятия в видео, отмечает, когда они появляются, отвечает на вопросы о видео в режиме реального времени
Прикручено к Qwen3-VL-8B-Instruct / Qwen3-VL-Embedding-2B / llava-onevision-qwen2-7b-ov-hf
Гитхаб
#VLM #realtime #video2text
Модель для понимания персонализированных видеопотоков.
Распознает определённые понятия в видео, отмечает, когда они появляются, отвечает на вопросы о видео в режиме реального времени
Прикручено к Qwen3-VL-8B-Instruct / Qwen3-VL-Embedding-2B / llava-onevision-qwen2-7b-ov-hf
Гитхаб
#VLM #realtime #video2text
👍6
TurboQuant
Кстати Google придумал новый метод квантования моделей
Не просто округлить числа погрубее, а сделать это так, чтобы модель почти не замечала потери точности. В результате
Длинный контекст становится дешевле
Инференс на том же железе ускоряется
Векторный поиск по огромным базам становится быстрее
#news #research
Кстати Google придумал новый метод квантования моделей
Не просто округлить числа погрубее, а сделать это так, чтобы модель почти не замечала потери точности. В результате
Длинный контекст становится дешевле
Инференс на том же железе ускоряется
Векторный поиск по огромным базам становится быстрее
#news #research
🔥25👍5
Dynamic VRAM in ComfyUI
В #ComfyUI завезли новую систему оптимизации памяти, которая позволяет эффективно запускать крупные модели на устройствах с небольшим объёмом оперативной памяти #lowvram
Оптимизация памяти работает автоматически
В #ComfyUI завезли новую систему оптимизации памяти, которая позволяет эффективно запускать крупные модели на устройствах с небольшим объёмом оперативной памяти #lowvram
Оптимизация памяти работает автоматически
🔥15👍7❤1🤔1
DA-Flow
Модель для оценки оптического потока на базе DiT4SR, хорошо работает с сильно испорченными видео. Учитывает искажения, хорошо справляется с шумом, размытием и артефактами сжатия
Оптический поток используют для интерполяции кадров если что - добавления новых кадров между существующими
Гитхаб ждем
#opticalflow #frameinterpolation
Модель для оценки оптического потока на базе DiT4SR, хорошо работает с сильно испорченными видео. Учитывает искажения, хорошо справляется с шумом, размытием и артефактами сжатия
Оптический поток используют для интерполяции кадров если что - добавления новых кадров между существующими
Гитхаб ждем
#opticalflow #frameinterpolation
👍4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
PAM (Pose–Appearance–Motion Engine)
Реконструкция и генерация видео с взаимодействием рук и объектов (HOI). Объединяет в себе генерацию поз, внешнего вида и движения в одном фреймворке
Разрешение 480×720
Гитхаб
HF
#hands #HOI
Реконструкция и генерация видео с взаимодействием рук и объектов (HOI). Объединяет в себе генерацию поз, внешнего вида и движения в одном фреймворке
Разрешение 480×720
Гитхаб
HF
#hands #HOI
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Kimodo
Диффузная модель для генерации качественных 3D-движений людей и роботов по тексту от NVIDIA
Помимо текста управляется с помощью разных констрейнов: ключевых кадров, позиций и вращений концевых эффекторов (например, рук и ног), 2D-путей и точек
Для локального запуска нужно около 17ГБ VRAM
Гитхаб
HF
Демо
#humananimation #text2animation #3d
Диффузная модель для генерации качественных 3D-движений людей и роботов по тексту от NVIDIA
Помимо текста управляется с помощью разных констрейнов: ключевых кадров, позиций и вращений концевых эффекторов (например, рук и ног), 2D-путей и точек
Для локального запуска нужно около 17ГБ VRAM
Гитхаб
HF
Демо
#humananimation #text2animation #3d
👍7🔥3
🔥11👍3
- Мы изобрели робота который отвечает на вопросы. Но для этого он съедает 10 маленьких жирафят в день
- Но он хотя бы дает правильны ответы?
- Божечки, конечно же нет, нет, нет
#humor
- Но он хотя бы дает правильны ответы?
- Божечки, конечно же нет, нет, нет
#humor
😁11
EVA: Efficient Reinforcement Learning for End-to-End Video Agent
Пониматор видео, который умеет «думать» перед тем, как «смотреть». В отличие от других систем, которые просто распознают контент, EVA сама решает, что и когда смотреть, как это делать
Гитхаб
HF
#VLA #reasoning
Пониматор видео, который умеет «думать» перед тем, как «смотреть». В отличие от других систем, которые просто распознают контент, EVA сама решает, что и когда смотреть, как это делать
Гитхаб
HF
#VLA #reasoning
👍3❤1👎1
😁18💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Vibe Coding XR
Проект Гугл для вайбкодинга интерактивных приложений расширенной реальности (XR). Использует Gemini и XR Blocks, чтобы превращать текстовые подсказки в работающие приложения
Создаёт интерактивные XR-приложения с учётом физики и пространственной логики
Работает с Android XR и позволяет тестировать приложения в симуляторе на настольном Chrome
Гитхаб
Демо
#AR #XR #vibecoding
Проект Гугл для вайбкодинга интерактивных приложений расширенной реальности (XR). Использует Gemini и XR Blocks, чтобы превращать текстовые подсказки в работающие приложения
Создаёт интерактивные XR-приложения с учётом физики и пространственной логики
Работает с Android XR и позволяет тестировать приложения в симуляторе на настольном Chrome
Гитхаб
Демо
#AR #XR #vibecoding
👍8
Suno V5.5
Теперь можно создавать треки со своим голосом
Также поработали над качеством звука и добавили жанров
#musicediting #voicecloning #referencing
Теперь можно создавать треки со своим голосом
Также поработали над качеством звука и добавили жанров
#musicediting #voicecloning #referencing
👍12👎3😐2