Метаверсище и ИИще – Telegram

Метаверсище и ИИще

32.8K subscribers

4.22K photos

2.22K videos

38 files

5.24K links

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn

Download Telegram

About

Blog

Apps

Platform

Метаверсище и ИИще

32.8K subscribers

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Аватарифай на стероидах.

Тут не знаю, за кого выпить в первую очередь: за тикток танцы, за вебкам, за цифровых инфлюенсеров, за аниматоров...

Про вебкам уже выпивал, кстати.

Одно время назад интернетик полнился анимацией портретов (типа Аватарифай) - загружаешь фотку (Мону Лизу, например), а ИИ заставляет ее кривляться или корчить разные смешные морды. Проекты типа D-ID берут морду лица и учат ее говорить всякие глупости.

Но постепенно ИИ добирается и до, скажем так, поясного плана, включающего в себя руки, плечи и часть корпуса.

На входе одна фотка и какой-то примерчик из библиотеки движений. И вот уже ваша фотка лихо пляшет на видео, размахивая руками.

Тут я подумал, что анимации можно брать из предыдущего поста.

По сравнению с тем, что раньше все эти цифровые инфлюенсеры делали тупую пересадку сгенерированного лица на реальные фото и видосы (по сути дипфейки), это уже шаг навстречу полной генерации и лица и тушки.

И есть код и проект:
https://github.com/fudan-generative-vision/champ
И объяснялка:
https://www.youtube.com/watch?v=2XVsy9tQRAY

И даже сами можете попробовать!
https://replicate.com/camenduru/champ

6.3K viewsSergey Tsyptsyn ️️, 06:19

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Ну и вот вам целое агенство по производству рекламных видосов (креативов), на которых (как выяснилось кожаные) актеры впаривают потребителям все что угодно.
Пишете сценарий, выбираете актера, генерите видео с нужным языком и липсинком.
Тут дополнительный слой в том, генерация заточена именно под рекламные видео.

Дорого, 100 баксов в месяц за 10 видосов.

https://app.arcads.ai/

6.5K viewsSergey Tsyptsyn ️️, edited 06:42

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Теперь Scaniverse поддерживает Gaussian Splatting

Если кто не в курсе, Scaniverse - это хорошее приложение фотограмметрии и 3Д-сканирования. Сканы можно редактировать, как и фотографии, обрезая, поворачивая, настраивая экспозицию или контрастность, а также экспортировать в популярные форматы OBJ и FBX для совместимости с программами 3D-моделирования и игровыми движками.

Круто, что Гауссианы вползают в разные пайплайны. И обратите внимание - все это крутится НА УСТРОЙСТВЕ, то есть на телефоне.

Пользователю, в общем, все равно, меш это или гауссианы, главное чтобы было красиво.

https://scaniverse.com/

6.8K viewsSergey Tsyptsyn ️️, edited 07:00

Метаверсище и ИИще

Кстати, уже в четырех странах мира - в Индии, Коста-Рика, Венгрии и Чили - признали права китообразных и дельфинов, взяв их под особую защиту на государственном уровне. В 2013 году правительство Индии присвоило дельфинам статус "личностей, не относящихся к человеческому роду". Таким образом Индия стала первой страной, признавшей уникальный интеллект представителей отряда водных млекопитающих - китообразных.

Значит вот эти твари, которые только пищат и смотрят на вас умными глазками - это личности, не относящиеся к человеческому роду. А ИИ, который звучит как личность, выглядит, как личность, говорит лучше 50% кожаных, умнее 80% кожаных - это стохастический попугай?

Представьте, что у вас есть новый вид рыбы, и вы не знаете откуда он взялся. При этом он говорит, рассуждает и врет, как человек. Вы проводите над ним опыты, он дико умный, умеет распознавать картинки и видео, умеет поговорить о них с вами на человеческом. Умеет рисовать картинки силой мысли. И вы не знаете, кто он вощетакой.

Вы будете называть его жалким повторителем?

Кстати, я вот тут подумал, что если замешать в датасеты разговоры на китовьем и на дельфиньем то может быть ИИ выучит кое-что новое...

https://www.anapatravelnotes.com/articles/novosti/184

7.0K viewsSergey Tsyptsyn ️️, 07:14

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Еще один шевеляж лицом.

Помните убойное EMO от Алибабы? Кода, как обычно, от алибабищенко, нет.
Но тут вот ТикТочек выкатил ответочку.
На входе фотка и аудио-файл, на выходе анимированный портрет, который, вроде как, должен под это аудио шевелить лицом.
Можно на вход подавать не только аудио, но и видео, чтобы копировать мимику, получается а ля дипфейк.
Я попробовал - выходит не очень, ответочка так себе. Самая засада, как обычно, в липсинке. Плюс поглядите, как диффузия беспощадно перемалывает надпись Nvidia на ленточке от бейджа.

Но есть код, и можно попробовать самому тут:
https://replicate.com/camenduru/aniportrait-vid2vid

Код:
https://github.com/Zejun-Yang/AniPortrait

Ну и если глянуть в статью, и даже дойти до раздела выводы, то они там пишут, что в будущем они собираются перейти на алибабищенский подход EMO, чтобы поправить качество.
In the future, we plan to follow the approach of EMO, predicting portrait videos directly from audio, in order to achieve more stunning generation results.

Алибаба, код давай, да?!

6.0K viewsSergey Tsyptsyn ️️, 07:25

Метаверсище и ИИще

Тут вот интернетик верещит новостью "The king is dead" - имея в виду тот факт, что "Claude 3 впервые превзошел GPT-4 на Chatbot Arena". Ну и дальше про похороны короля GPT Четвертого...

Если поглядеть на это трезво, то получается, что где-то, как каком-то ресурсе, на определенных бенчмарках и задачах, Клод обошел на повороте GPT-4 в моменте.

Более того, если почитать основную Y-дискуссию, посвященную этой новости, то выясняется, что даже на отдельно задаче кодогенерации половина кожаных считает, что GPT лучше, а половина, что Клод.

For coding I've found ChatGPT4 a bit better than Claude 3 Opus because it tends to understand my intentions more and I trust it to make better suggestions for code changes.

Ну то есть, бенчмарки бенчмарками, чатботарены чатботаренами, а все люди и задачи разные и пока говорить, что "король мертв" - это лютый кликбейт, конечно (говорю как спец по кликбейту).

Также в коментах можно найти много интересного про GPT-5 и другие теории заговора.

В общем, революции нет, расходимся, и ждем новостей от OpenAI.

https://news.ycombinator.com/item?id=39841390

5.8K viewsSergey Tsyptsyn ️️, 07:53

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

One-step Diffusion

Ускорение Stable Diffusion становится трендом (особенно актуально в преддверии SD3).
Причем генерация в один шаг появилась за последнюю неделю сразу во многих работах.

Собрал три последние работы, поглядите сами:
Xiaomi: https://idkiro.github.io/sdxs/
Адобченко: https://tianweiy.github.io/dmd/
Ёсо: https://github.com/Luo-Yihong/YOSO

Если это разогнать еще с помощью ухваток от Нвидии в виде TensorRT, то можно ждать реалтаймовых генераций с очень приличным качеством.

И это очень круто, потому что продукты типа Krea или Vizcom демонстрируют, что отклик и работа "в картинке" (а не с кнопкой Генерить) являются очень ценными для тех, кто работает с той самой картинкой.

Любопытная аналогия напрашивается - с появлением UE в постпродакшене лет 10 назад. Когда архвизеры увидели, что UE может рендерить их ацкие интерьеры почти в реалтайме, они заплакали (от щастя) и остановили свои тридцатичасовые рендеры в Вирее.

В общем, реалтайм диффузия хорошо зайдет в рынок инструментов для генерации контента.

6.0K viewsSergey Tsyptsyn ️️, 08:28

Метаверсище и ИИще

Stable Diffusion 3 Бот

Как подсказывает нам лента Stable Diffusion на реддите (забавная, читаю), Stable Diffusion 3 раскатали в виде чат-бота, в котором можно генерить картинки. Я об этом уже писал, но доступа за это мне не дали)).
Но всегда можно почитать коменты на реддите:

Говорят, что это одна из младших моделей, что она не тянет хорошее качество и разрешение и что она ЖУТКО цензурирована:

"Ассистент SD3 хуже, чем dalle3 на chatGPT и даже bing image creator. На запрос "две женщины болтают в спортзале" он несколько раз отказывался генерировать что-либо, а потом выдал нечто, похожее на двух мужчин в женской одежде... "full body shot" означает отсутствие изображения. В более реалистичном стиле он по умолчанию (я имею в виду очень часто) генерирует жуткие, обычно немного уродливые лица (например, большие или кривые зубы). Он не любит "привлекательные" и "красивые" и, хотя не отказывается их генерировать, обычно вычеркивает их из подсказки. "Аниме-женщина" означает отсутствие видимой формы груди, либо одетая грудь заслонена другим предметом, либо это детская/мужская грудь, лишь изредка мне удавалось сгенерировать что-то, что я бы классифицировал как часть маленькой груди (опять же, не обнаженной, просто одежда с неясной формой груди). Я очень надеюсь, что слухи о том, что бот использует меньшую модель, правдивы, и цензура портит ее, а не то, что большая модель так плоха.
По крайней мере, половина изображений выглядит хуже, чем из SDXL, и большинству изображений потребуется инпайнт для глаз/рук/конечностей). "

Пока невесело...

https://www.reddit.com/r/StableDiffusion/comments/1bp3i0r/stable_assistant_preview_with_beta_version_of/

5.7K viewsSergey Tsyptsyn ️️, edited 09:07

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

У HeyGen обновление - Avatar in Motion 1.0

Теперь вам не нужно напряженно глядеть в камеру и стараться не шевелить головой. Теперь можно махать руками, трясти башкой, снимать стримы на улице(!), ХейГенчик подхватывет все это добро, переводит и липсинкает все это на разные языки.
Еще раз, тут нет генерации аватаров - это перевод, дубляж и липсинк.

А теперь вишенка: для тех, кто считает, что при переходе на испанский качество упало. Оригинальное видео было записано на немецком!

ХейГенщики также отжигают в твитторе: присылайте, говорят, какие глупости должен сказать персонаж, а мы сгенерим это в ленте.
https://twitter.com/HeyGen_Official/status/1773119891068883240

8.3K viewsSergey Tsyptsyn ️️, 09:30

Метаверсище и ИИще

Forwarded from Denis Sexy IT 🤖

This media is not supported in your browser

VIEW IN TELEGRAM

Мне дали доступ к продвинутой модели генерации картинок SD3, пока в виде чатбота – я поигрался и могу сказать что через месяца два у нас будет MJ v6 дома; не потому что сама SD3 такая сильная, а потому что это шикарная базовая модель, которую после релиза в опенсорс обязательно полюбят в сообществе и натренирует кучу версий с ней.

По моим источникам в стабилити, релиз SD3 в опенсорс будет через ~6 недель ☕️

Please open Telegram to view this post

VIEW IN TELEGRAM

4.4K viewsSergey Tsyptsyn ️️, 10:29

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Взалкали новизны в творчестве? ИИ придет на помощь.

Держите очередную порцию новых нормальных видео. Промпты в титрах.

И знаете, что мне нравится - демократизация. Автор пишет:

Я всегда был творческой студией, состоящей из одного человека, поэтому существовали ограничения на то, что я мог создать в одиночку. С Sora я чувствую, что могу рассказывать истории в таких масштабах, которые раньше мне казались невозможными.

Ждем открытия новых инди-студий. И сокращения штатов у мейджоров.

6.6K viewsSergey Tsyptsyn ️️, edited 10:51

Метаверсище и ИИще

Forwarded from Derp Learning

This media is not supported in your browser

VIEW IN TELEGRAM

Ну и куда же без пятничного кека над айфонами

5.5K viewsSergey Tsyptsyn ️️, 05:35

Метаверсище и ИИще

Хотел написать, что вышел GROK 1.5 от Маска.
Но нет, он не вышел, вышел пост в блоге твиттора.
Весов нет, доступа нет, даже для ранних бета-тестеров он как бы "будет доступен скоро".
Пост полон оптимистичных бенчмарков, длина контекста огромная, 128К, улучшения в математику и код.
К тому времени, когда дотренируют Лламу 3, у нее будет полно конкурентов на open source поляне.
https://x.ai/blog/grok-1.5

Announcing Grok-1.5

Grok-1.5 comes with improved reasoning capabilities and a context length of 128,000 tokens. Available on 𝕏 soon.

6.0K viewsSergey Tsyptsyn ️️, 06:33

Метаверсище и ИИще

Forwarded from эйай ньюз

Jamba - вроде Mamba, вроде MoE, вроде трансформер, и в то же время ничто из этого

Заявляют, что по бенчам на уровне Mixtral 8x7b, параметров в целом чуть больше (52B vs 46.7B у Mixtral), но активируется чуть меньше (12B vs 12.9B у Mixtral). Говорят что поддерживается контекст вплоть до 256к, но относиться к этому стоит скептически. В целом не заслуживало бы внимания, если бы не архитектура.

А вот архитектурно это ОЧЕНЬ странная модель – мешают сразу три типа слоёв (см. вторую каритнку). В каждом блоке в 8 слоёв 4 MoE, 3 Mamba и 1 классический трансформерный. То есть на бумаге там 16 экспертов, из них активных 2, но тем не менее половина активируемых параметров при работе модели - dense.

Зачем так - сделали - непонятно, но вроде работает. Главное преимущество по сравнению перед Mixtral - поддержка очень длинного контекста - 140к на одной A100, против 64k у Mixtral, причём на длинных контекстах Jamba вплоть до 3 раз быстрее. Главная проблема таких заявлений – непонятно как эта модель ведёт с такими огромными контекстами. Результатов для Needle In a Haystack бенчмарка нет.

В целом ничего не понятно, но очень интересно.😊

Веса
Блогпост

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

4.9K viewsSergey Tsyptsyn ️️, 14:25

Метаверсище и ИИще

Forwarded from Derp Learning

This media is not supported in your browser

VIEW IN TELEGRAM

Вышел апдейт viggle.ai

Подняли разрешение видео, ускорили генерацию, улучшили лица и быстрые движения.

Надеюсь, пофиксили главную проблему - фон, залезающий на текстуру по краям модели.

Если не в курсе - это сервис, который генерит и текстурирует модельку по фото и анимирует все это по опорному видео, в том числе с лицевой анимацией.
Хоть какой-то глоток свежего воздуха на фоне вариаций animatediff с различными свистоперделками.

5.2K viewsSergey Tsyptsyn ️️, 14:32

Метаверсище и ИИще

Media is too big

VIEW IN TELEGRAM

Прошел Adobe Summit. Там было много интересного.

Прежде всего это ControlNet для Firefly под названием Structure reference.
Подробности не раскрыты - какая там внутри модель - canny, depth или все вместе. Вы просто загружаете референсную картинку, пишете промпт и генерация идет в соответствии с пространственной композицией на референсе. Да, похоже на КонтролНет.

А вот следующая штука от адобченко - это уже выход на большие рекламные деньги.
GenStudio - это не только и не столько про генерацию креативов для рекламы, но и про оптимизацию стоимости, измерение эффективности рекламы, то есть про цикл обратной связи. Генерим, смотрим, что перформит лучше, запускаем заново.

GenStudio - это рекламный центр для брендов, предлагающий полный набор инструментов для планирования маркетинговых, рекламных и промо-кампаний, создания и управления контентом, активации цифрового опыта по всем каналам и измерения эффективности.
Это позволяет брендам и корпоративным пользователям отслеживать и просматривать кампании, управлять брифами и видеть поставленные перед ними задачи, а также интегрировано с Adobe Workfront, программным обеспечением Adobe для управления проектами

GenStudio также предупреждает пользователей о том, что контент отклоняется от стандартов бренда, и предлагает предложения по его корректировке.

Вот это уже интересно!
https://venturebeat.com/ai/adobe-introduces-structure-reference-for-firefly-ai-and-genstudio-for-brands/

5.8K viewsSergey Tsyptsyn ️️, edited 15:37

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Вот так работает Adobe Firefly Structure Reference - контролНет от Адобченко. С текстами огонь.
Больше примеров тут:
https://guidady.com/structure-reference/
И прежде чем свидетели A1111 начнут ворчать, что все это мы уже год как пользуем, я спрошу - вы интерфейс ControlNet в Автоматике давно рассматривали? Это AntiUI.
А тут культурно наливаем и выпиваем. За иллюстраторов. В нормальном интерфейсе.

29.2K viewsSergey Tsyptsyn ️️, 15:47