HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
Красивое! Авторы DC-AE и sana продолжают жечь сердца людей опенсорсом.
На этот раз они взяли авторегрессивную модель и к привычному дискретному пайплайну добавили немного диффузии. То есть основную работу делают с обычным next token prediction, и потом поверх наваливают немного диффузии, чтобы сгладить углы.
В итоге получают соту во все поля. Элегантно и эффективно! Так ли уж нам нужна теперь эта ваша (их же) sana? 😂
Code
Project
Paper
Demo
@derpleaning
Красивое! Авторы DC-AE и sana продолжают жечь сердца людей опенсорсом.
На этот раз они взяли авторегрессивную модель и к привычному дискретному пайплайну добавили немного диффузии. То есть основную работу делают с обычным next token prediction, и потом поверх наваливают немного диффузии, чтобы сгладить углы.
В итоге получают соту во все поля. Элегантно и эффективно! Так ли уж нам нужна теперь эта ваша (их же) sana? 😂
Code
Project
Paper
Demo
@derpleaning
👍10🔥8❤1👨💻1
This media is not supported in your browser
VIEW IN TELEGRAM
Doesn't look like anything to me.
Кто куда, а я за модной черной шляпой и конем :D
Помните, недавно кидал подобную робо-руку от этих же товарищей?
Они времени зря не теряют, и уже запилили тушку.
Torso by Clone Robotics
@derplearning
Кто куда, а я за модной черной шляпой и конем :D
Помните, недавно кидал подобную робо-руку от этих же товарищей?
Они времени зря не теряют, и уже запилили тушку.
Torso by Clone Robotics
@derplearning
🔥28❤3👀2😱1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Классная игра – где одна LLM рисует картинку кодом (SVG), а другие LLM угадывают что это
(Кода пока нет, но наверное будет)
Автор
(Кода пока нет, но наверное будет)
Автор
🔥51😁23❤7👍4
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
По всей видимости, текущие методы RL не очень подходят для генерации трёхмерных представлений либо тратят слишком много вычислительных ресурсов. Поэтому для новой беты модели Gen-1 RLHF V0.9 использовали Reinforcement Learning with Human Feedback (RLHF): у них, натурально, в штате сидит команда моделлеров, которые раздают вознаграждения.
К слову, генерации на уровне Tripo3D из этого поста — возможно, у Tripo тоже RLHF, но это же не звучит так волшебно, если у тебя разметку делают люди.
На старте дадут 8 бесплатных кредитов, погонять тесты хватит. Для остального есть возобновляемые кредиты у Tripo.
Пробовать тут
К слову, генерации на уровне Tripo3D из этого поста — возможно, у Tripo тоже RLHF, но это же не звучит так волшебно, если у тебя разметку делают люди.
На старте дадут 8 бесплатных кредитов, погонять тесты хватит. Для остального есть возобновляемые кредиты у Tripo.
Пробовать тут
👍15❤4👀2🔥1
Forwarded from ЭйАйЛера
У Runway потрясающее новое обновление — улучшенное управление камерой
Можно будет выбрать направление движения, скорость, сочетать это все в ролике. Есть даже панорамирование объекта, то есть обучали не только на видео. Подробнее и с черрипиками тут.
Готовлюсь тестировать на все деньги, вместе с новым обновлением в Midjourney (позволяющим работать со своими изображениями) — это новое слово в творчестве и рекламе. После сотни итераций, конечно.
Можно будет выбрать направление движения, скорость, сочетать это все в ролике. Есть даже панорамирование объекта, то есть обучали не только на видео. Подробнее и с черрипиками тут.
Готовлюсь тестировать на все деньги, вместе с новым обновлением в Midjourney (позволяющим работать со своими изображениями) — это новое слово в творчестве и рекламе. После сотни итераций, конечно.
❤24🔥9👍3
Для mochi запилили редактор mochi comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!
Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).
comfyui mochiedit
comfyui mochiwrapper
models
@derplearning
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!
Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).
comfyui mochiedit
comfyui mochiwrapper
models
@derplearning
👍17🔥3