Метаверсище и ИИще
39K subscribers
4.91K photos
3.09K videos
40 files
5.88K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Рунвейцы, налетаем.

Выкатили Runway GEN-4 Turbo.

Как бы в пять раз быстрее, при этом в два раза дороже.

Позиционируется как "быстрые итерации" отличного качества.

Раскатывают на все тарифы.

@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
Огненный Китайский Липсинк и не только.

Я уже писал про Дримину, как китайскую ответочку Креа и Фрипик. И единственное место, где можно попробовать тот самый Omni Human.

Оказывается, если зайти туда штатовским ВПНом, то кнопка с липсинком становится доступна! Бесплатно!

В общем, это больше похоже на китайскую Хедру - загружаешь портрет, аудио или текст, и жмешь Сгенерить.

И надо сказать, генеративная Марго Робби получилаcь отлично. С первого раза.

Дальше я, конечно, попытался это сломать. Присунув ей двух анимэ персонажей с широко открытыми ртами в одном кадре (T-поза для липсинка - слегка открытый рот).

Ну что сказать, получилось. Но все равно она выкрутилась. Смешно наблюдать как вход один, а рта - два. Синк на лицо\лице.

Там, кстати, цензура на звук. Отрывок из Laid Back: If you wonna be rich, you gotta be a bitch не пропустила из-за последнего слова.

Пробуем тут, я логигился капкатовским аккаунтом, а в капкате логинился гуглом. Без смс и оргий.

https://dreamina.capcut.com/ai-tool/video/lip-sync/generate

Штатовский впн.

@cgevent
В Pikaframes можно загрузить до пяти кадров и получить 20 секунд анимации\видео, "проходящей" через эти кадры.

Больше, наверное, ни у кого нет.

Но если посмотреть на 3-4 ролика, то начинаешь точно угадывать момент, в который будет стык.

Во-первых, у них на движение камеры стоит easy-in easy-out и камера притормаживает к концу плана автоматически.
Во-вторых, там типичная ошибка с дублирующимся кадром, его надо ручками выкидывать, похоже. Иначе паузы.
В-третьих, переходы с движущейся камерой получаются одинаковые, некий спотыкач.

А вот на статике может быть поинтереснее. С морфингом неплохо, и очень забавный пример со скетчем. Теперь спид-пайнт можно симулировать задав пять (и еще пять) промежуточных скетчей.

В общем Пика верна себе. Больше вирусности и ваушности.

Но движение в cторону раскадровок хорошее.

@cgevent
Forwarded from РЕПТИЛОИДНАЯ
Media is too big
VIEW IN TELEGRAM
ИИ-агент с визуальной навигацией.

Вчера в одном из чатов обсуждали ИИ, который живет в VR Chat, способен видеть окружение, перемещаться и взаимодействовать с живыми пользователями.

Оказалось фейком (напишу позже). Но мы — те, кто делает сказку былью.

За пару часов собрал вот такой эксперимент. Смотрите видео.

Справа — чат, как в ChatGPT, c ИИ можно общаться.
Слева — цифровой мир и аватар, которым ИИ может управлять, задействуя несколько инструментов: vision (ИИ может посмотреть на мир), а также поворот и перемещение.

Удивительно (или нет?), но это заработало. Даю ИИ команду — найди синий шар. Он начинает осматриваться, находит шар, и идет к нему! Говорю — найди красный. Находит! Не сразу, но находит! Все полностью автоматически, я пишу только одно первое сообщение.

В целом, если добавить еще кучу костылей (память, интеншены), а также голосовой чат и взаимодействие с внешним сервисом (Spatial, VR Chat, etc) — получится агент, способный реально жить в виртуальном мире.

И тратить больше денег, чем самая требовательная девушка: дорого это все. Каждый запрос в районе 1-2 центов (я спользовал Claude Sonnet 3.7), а запросов десятки.

По дешевым нейронкам положняк такой:
- gpt-4o-mini — уже через десяток шагов забывает задачу
- gemini flash — теряет ориентацию в пространстве

4o и gemini 2.5 работают, но заметно хуже sonnet 3.7

Спрашивайте ваши вопросы.

🔴 @reptiloidnaya × #ai