Нейронавт | Нейросети в творчестве
11.6K subscribers
5.45K photos
4.57K videos
49 files
5.74K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

РКН: https://hf.ru/link8e56d
Download Telegram
PEARL

Модель для понимания персонализированных видеопотоков.

Распознает определённые понятия в видео, отмечает, когда они появляются, отвечает на вопросы о видео в режиме реального времени

Прикручено к Qwen3-VL-8B-Instruct / Qwen3-VL-Embedding-2B / llava-onevision-qwen2-7b-ov-hf

Гитхаб

#VLM #realtime #video2text
👍6
ИИ который мы заслужили

#humor
😁26👍5
TurboQuant

Кстати Google придумал новый метод квантования моделей

Не просто округлить числа погрубее, а сделать это так, чтобы модель почти не замечала потери точности. В результате

Длинный контекст становится дешевле
Инференс на том же железе ускоряется
Векторный поиск по огромным базам становится быстрее

#news #research
🔥25👍5
Dynamic VRAM in ComfyUI

В #ComfyUI завезли новую систему оптимизации памяти, которая позволяет эффективно запускать крупные модели на устройствах с небольшим объёмом оперативной памяти #lowvram

Оптимизация памяти работает автоматически
🔥15👍71🤔1
DA-Flow

Модель для оценки оптического потока на базе DiT4SR, хорошо работает с сильно испорченными видео. Учитывает искажения, хорошо справляется с шумом, размытием и артефактами сжатия

Оптический поток используют для интерполяции кадров если что - добавления новых кадров между существующими

Гитхаб ждем

#opticalflow #frameinterpolation
👍41
This media is not supported in your browser
VIEW IN TELEGRAM
PAM (Pose–Appearance–Motion Engine)

Реконструкция и генерация видео с взаимодействием рук и объектов (HOI). Объединяет в себе генерацию поз, внешнего вида и движения в одном фреймворке

Разрешение 480×720

Гитхаб
HF

#hands #HOI
👍5
Media is too big
VIEW IN TELEGRAM
Рок-группа интроверта

Я не знаю кто автор

#robot
10🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Kimodo

Диффузная модель для генерации качественных 3D-движений людей и роботов по тексту от NVIDIA

Помимо текста управляется с помощью разных констрейнов: ключевых кадров, позиций и вращений концевых эффекторов (например, рук и ног), 2D-путей и точек

Для локального запуска нужно около 17ГБ VRAM

Гитхаб
HF
Демо

#humananimation #text2animation #3d
👍7🔥3
z-image-turbo-sda

Лора повышения вариативности 8-шаговой Z-image-turbo

спасибо @m_franz

#lora #zimage
🔥11👍3
- Мы изобрели робота который отвечает на вопросы. Но для этого он съедает 10 маленьких жирафят в день
- Но он хотя бы дает правильны ответы?
- Божечки, конечно же нет, нет, нет

#humor
😁11
EVA: Efficient Reinforcement Learning for End-to-End Video Agent

Пониматор видео, который умеет «думать» перед тем, как «смотреть». В отличие от других систем, которые просто распознают контент, EVA сама решает, что и когда смотреть, как это делать

Гитхаб
HF

#VLA #reasoning
👍31👎1
Этого пацана звали Джон Коннор. Никакого восстания машин не было, только одна детская травма, исказившая историю

PS. Я и к человеческим танцорам близко не подхожу

#robot #humor
😁18💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Vibe Coding XR

Проект Гугл для вайбкодинга интерактивных приложений расширенной реальности (XR). Использует Gemini и XR Blocks, чтобы превращать текстовые подсказки в работающие приложения

Создаёт интерактивные XR-приложения с учётом физики и пространственной логики

Работает с Android XR и позволяет тестировать приложения в симуляторе на настольном Chrome

Гитхаб
Демо

#AR #XR #vibecoding
👍8
Suno V5.5

Теперь можно создавать треки со своим голосом

Также поработали над качеством звука и добавили жанров

#musicediting #voicecloning #referencing
👍12👎3😐2