Метаверсище и ИИще
50.1K subscribers
6.28K photos
4.88K videos
48 files
7.22K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
А между тем, Runway ML тихо провел свой Research Demo Day Stream.

Я его послушал и вот вам краткая выжимка.

1. Gen-4.5: Вскоре вы сможете как создавать, так и редактировать исходный звук с помощью Gen-4.5, а также редактировать видео произвольной(?!) длины с помощью многокадрового монтажа (multi-shot editing)

2. General World Model, GWM-1: GWM-1 построен на основе Gen-4.5, но с одним важным отличием — он является авторегрессионным. Он прогнозирует кадр за кадром, основываясь на том, что было ранее. В любой момент вы можете вмешаться с действиями в зависимости от приложения, которые могут заключаться в перемещении в пространстве, управлении роботом-манипулятором или взаимодействии с агентом, и модель будет моделировать то, что произойдет дальше. 720p и 24 fps (но непонятно на каком железе). Еще один игрок на поле Моделей Мира.

3. GWM Robotics — это обучаемый симулятор, который генерирует синтетические данные для масштабируемого обучения роботов. Сделан на основе GWM-1.

4. GWM Worlds.
Это модель мира для симуляции окружающей среды в реальном времени.

Вы даете модели статическую сцену, и она генерирует иммерсивное, бесконечное, доступное для исследования пространство с геометрией, освещением и физикой, по которому вы можете перемещаться. Все это происходит в реальном времени. Вы можете путешествовать в любое место, реальное или воображаемое. Вы можете стать любым агентом: человеком, гуляющим по городу, дроном, летящим над заснеженной горой, или роботом, перемещающимся по складу.

5. GWM Avatars - тут они показали нечто очень похожее на Hedra и Live Avatars - говорящие головы и видео большой длины с ними. Причем там не только кожаные головы, но и всякия твари, персонажи, животные и пр. 720р

А теперь спойлер: все это ни хрена не готово и будет готово когда-нибудь. Сроков не назвали.

С мирами у них должно неплохо получиться, они говорили про миры раньше всех, но в последнее время они явно отстают по скорости обновлений.

Смотрите тут: https://www.youtube.com/watch?v=OnXu-6xecxM

Читайте тут: https://runwayml.com/

@cgevent
👍2415
This media is not supported in your browser
VIEW IN TELEGRAM
Meshy 6 Preview: генерация 3Д-персонажей в T\A-позе по произвольной картинке (плюс риг).

Можно подавать на вход картинку с персонажем в произвольной позе, а Meshy в процессе генерации развернет персонаж в T- или А-позу. См. видео.

Дополнительно они прикрутили примитивную систему для рига персонажей. Там даже есть окошко, напоминающее HumanIK из Maya\Motion Builder, где можно расставить суставы и он вставит скелет в персонажа.
Скелет очень примитивный, нет шеи, спины, пальцев, только ноги и руки из двух костей. Ну и не факт, что это нейрориг, скорее всего обычный алгоритм сетапа персонажей.

Но радует то, что 3Д-генераторы начинают думать дальше, чем 3Д-печать получаемых моделей.

https://www.meshy.ai/

@cgevent
🔥36👍115
Ну, за влоггеров.

Еще один генератор аватаров - Creatify Aurora.
Очередной генератор говорящих голов. Однако в отличие от Хедры, они, похоже, просто юзают чужие API.
Изначально компания занималась и занимается генерацией рекламных видео на основе коммерческих генераторов типа Veo или Kling.

Похоже кожаным влоггерам придется изобретать специальные визуальные коды типа покрутить шеей на 360 или укусить себя за палец, чтобы обозначить, что они кожаные. Ибо все нейроблоггеры довольно одинаково трясут головой, а эмоции живут отдельно от контекста. И пока они выучат кусание за палец, кожаные придумают новые коды.

Впрочем, кто на них смотрит? Их же слушают, не? В машине, на работе, фоном...

https://creatify.ai/features/ai-avatar

@cgevent
😁20🔥5👎21👍1
Forwarded from AI Product | Igor Akimov
Так, GPT-5.2:
- Выдающиеся результаты в GDPVal (профессиональные задачи офисных сотрудников): 70.9% vs 60% у Opus 4.5

Существенно прокачались в кодинге, но кажется все-таки чуть уступают Opus 4.5

Существенно улучшили борьбу с галлюцинациями. Сравнивать напрямую не получается, но это лучший результат сейчас.

Практически уничтожили проблемы работы с длинным контекстом (только гляньте на график, где прошлая версия у 60% колыхается, а у новой почти 100%).

Улучиши визуальный ризонинг, но здесь лидер все-равно все еще Gemini 3.0 Pro

Вызов инструментов - сильно выросли, но в целом на уровне Opus 4.5 и Gemini 3.0 Pro, ноздря в ноздрю

Математика, абстрактное мышление и физика - просто разорвали все, что есть на рынке, при это уменьшили количество токенов для решения сложных задач (например по сравнению с о3 насчитали 300х раз).

Обновили контекст до августа 2025 года!

Короче, в офисных задачах, расчетах, длинном контексте, современных знаниях пока это лучшая модель.

Для кодинга все еще лучше Opus, для мультимодальных задач - Gemini.
🔥30👍163👎3😁3
This media is not supported in your browser
VIEW IN TELEGRAM
OmniPSD: Layered PSD Generation with Diffusion Transformer

Интересная работа, где в авторах Lovart.ai

Это генерация картинок сразу в PSD.

Упор на то, что можно дать картинку на вход и получить слои с текстом, объектами и фоном.

Кода нет, но есть демо на Lovart.ai

@cgevent
🔥41
Комфи на удаленной машине

Спойлер, тут гики, сидящие в Комфи пару лет будут ржать над моими изысками, ибо все как бы очевидно, но моя задача была поглядеть снова на Комфи продуктовым взглядом, взглядом тех, кто прям сейчас думает, а не попробовать ли мне лапшичный бульон снова.

Похоже, что Комфи остается единственным развивающимся вариантом генерации картинок и видео (и не только).
Автоматик умер, Forge остановился в развитии, есть еще Forge Neo, поддерживаемый одним человеком, и потому способный загнуться в любой момент. Есть еще SD.Next.

Но я решил обновить свое же представление о Комфи. Ну и как обычно, новости две, хорошая и плохая.

Сначала о хорошем. Мой ноут имеет 2080 и 8 гиг врам, поэтому я все генеративные штуки запускаю в облаке на immers.cloud. В прошлый раз они оперативно по моей просьбе сделали конфигурацию с H100 и 256 гиг оперативы, поэтому я полез создавать сервер с Комфи. Оказалось, что в списке предустановленных конфигов уже есть сервак с Комфи, поэтому я просто выбрал его и сервак через минуту был готов.

Тут надо оговориться, что мне как пользователю SGI в прошлом немного проще с Линуксом, но чтобы запустить Комфи на удаленной Убунте надо исполнить скрипт "source ./venv/bin/activate" с папке с Комфи. А потом еще прокинуть туннель в Putty. На локальной машине с Виндой все это, конечно, не требуется.

После чего Комфи запустился удаленно с UI на моем ноуте. Я его обновил прям из Комфи Менеджера и полез смотреть, чего наворотили.
А наворотили много чего, но самое главное, поддержку из коробки самых последних моделей (Day 0 support). Приятно, что просто вбиваешь в поиск в темплейтах "z" или "hun" и Комфи выдает тебе готовые воркфлоу Зимажа или Хуньяня. Не надо, как раньше, бегать по интернету с протянутой рукой.

Теперь открываешь воркфлоу, а оно тебе пишет, чего не хватает, и, что очень здорово, говорит откуда скачать и, самое главное, куда положить. Раньше это было просто приключение и чтение реддита часами.
На удаленной машине это немного сложнее, но благо есть кнопка "Copy URL", поэтому вооружившись wget и командной строкой (или WinSCP) можно скачать и разложить недостачу по папкам.
И все сразу заводится! Нет больше возни с кастомными нодами, git clone и неведомыми папками. Это радует.

Так я очень быстро завел Z-Image Turbo и Hunyuan Video 1.5.
Забавно, что Z-Image считает картинку на Н100 менее чем за 2 секунды.
Hunyuan Video тоже завелся с первого раза и даже выдал очень неплохую картинку, мне кажется, эта модель недооценена.

В общем, мне понравилось, что теперь создание сервака с Комфи и запуск его на immers.cloud занимает реально пару минут.

Теперь о плохом.
Installed frontend version 1.25.11 is lower than the recommended version 1.33.13
This error is happening because the ComfyUI frontend is no longer shipped as part of the main repo but as a pip package instead.

Ну то есть Комфи разрабатывается отдельно, а его фронтенд отдельно. Разработчики так наверное прикалываются. Вроде стараются делать все для людей, но получается по старинке.

Лечится:
python3 -m pip install -r /home/ubuntu/ComfyUI/requirements.txt
Но если обновлять Комфи через git pull, фронтенд опять слетает.

Ну и самое главное, вот открыл я Hunyuan Video Template, и там вроде все подписано, но это .. все равно каша. И ты такой жмешь кнопку Run и оно даже работает, но понять схему апскейла, например, в принципе невозможно методом пристального взгляда.

Короче:
Комфи стал ближе к народу, кнопка Run работает с первого раза и есть поддержка всякого свежака.
Комфи по прежнему далек от народа, сделать Plot XY или пристегнуть Лоры без готового темплейта пользователь, привыкший к культуре Автоматика, не сможет.

Продолжаю наблюдать...

Холивары в студию...

@cgevent
👍3527🔥18😁4👎3
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

Автор: Сергей Ерженков, журналист и автор документальных фильмов

У меня давно зрела идея снять документальный фильм про ПАЗик. В реальности снять не получилось. Но я вернулся к этой идее через промты. Это мой первый ИИ-ролик.

Идея: ПАЗик - это не просто автобус. Это календарь человеческих инициаций. На нем вывозят школьников из непроглядных зимних сел. На нем же новобранцы, держась за поручни, едут в армию. В него, ради экономии, грузят всех гостей свадьбы - не очень статусных для того, чтобы выделять им отдельный транспорт, но и не совсем чужих, чтобы проигнорировать их приглашение вовсе. И на этом же ПАЗике с надписью ФГУП Ритуал провожают человека в его последний путь.

Инструменты:
Первый этап генерации - фото через midjourney. Он остается самым творческим инструментом, который легко распознает выдает желаемые фотостили. Дальше доводил картинки до ума через Reve и NanoBanana pro.

Переход к видео дался тяжело. Сначала я подался было в Veo, но результат меня чем дальше, тем больше удручал. Меня не устраивало ни движение, ни пластика. Потом мигрировал в Kling, и там пошло повеселее. Довольно быстро распотронил подписку Pro, пришлось еще докупать кредитов.

Звук. Музыку брал стоковую. У меня уже была подписка, нужная мне для основной работы, поэтому, считай, бесплатно. Звуки тоже брал из фонотеки. Часть звуков генерировал сам Kling.

Монтировал в Davinci. Цветкорром не особо увлекался, поскольку нужную цветность добивался изначально на стадии генерации изображений.

Итого на ролик потрачено 85 долларов. Это подписки на Midjourney, Kling и NanoBanana. Генерация непосредственно видео плюс монтаж заняли 4 полноценных дня - без перерывов, кроме обеденного. Картинки генерировал около двух недель с существенными перерывами.

В ролике, особенно если его смотреть на большом мониторе, конечно, видны огрехи. Но, поскольку ролик некоммерческий, а тратить больше 85 долларов из личного кармана я был не готов, не стал добиваться идеала. Пусть эти изъяны останутся «пасхалочками» - как напоминание о времени, когда ИИ был еще несовершенным.


@cgevent
1👍207🔥9036👎21
This media is not supported in your browser
VIEW IN TELEGRAM
MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos

Нейромокап от Хуавея. Выглядит очень нарядно. Работает не только с бипедами, но и с произвольными скелетами (птицы впечатляют).
Достает скелеты из обычного видео.
Жаль нет кода, работа очень хорошая.

https://animotionlab.github.io/MoCapAnything/

@cgevent
🔥4311👍1