Метаверсище и ИИще
32.7K subscribers
4.22K photos
2.22K videos
38 files
5.23K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Замени говорю, котов на собак, потом на свиней, потом на людей. Он точно про нас что-то знает.
(про свиней тоже, зацените прикиды хрюш)
Промпт был "дай много котов, смотрящих в камеру"
А тем временем Stability AI увольняет около 10 процентов своих сотрудников, около 20 человек.
Пишут:
Решение об увольнении сотрудников является частью "стратегического плана по сокращению расходов, укреплению поддержки наших инвесторов и партнеров, а также предоставлению командам возможности продолжать разработку и выпуск инновационных продуктов".

Что ж такое там происходит? Мы тут все алкаем SD3, а кто ея будет допиливать?

https://www.theverge.com/2024/4/18/24133996/stability-ai-lay-off-emad-mostaque
This media is not supported in your browser
VIEW IN TELEGRAM
Вынесу из коментариев такой пример генерации от подписчика Mike:

"The Truth" - песня о поиске истины.

"Постарался вытянуть из Suno максимум (сначала мучил Udio, но результат был хуже).
Потратил около 5 часов, 90+ генераций, нарезка, чистка, маскировка артефактов звуковыми эффектами. И монтаж в Blender (не удивляйтесь).
"

Это я к тому, что:
- ИИ можно допинывать до годного или до нужного тебе, ИИ тут вполне себе инструмент
- это стоит времени, если есть заказчик и не стоИт задача генерить тысячу треков в час.
- можно конечно жать кнопку "Давай еще", но этот подход не работает, как с картинками, музика немного сложнее
- для видео и аудио генераторов точно нужен интерфейс для редактирования треков. Об этом след пост.

А пока послушайте. Мне это слышится скорее как закрывающий трек для эпизода какого-то сериала. Обратите внимание как сделаны шумы (на картинке ответ).

P.S. Mike прислал картинку и mp3. Я просто спросил chatGPT:
I have png image and mp3 file - I need to make mp4 video using ffmpeg - give me ffmpeg comand

chatGPT: Апажалста: ffmpeg -loop 1 -framerate 1 -i image.png -i audio.mp3 -c:v libx264 -tune stillimage -c:a aac -b:a 192k -pix_fmt yuv420p -shortest output.mp4

Ибо Movavi не умеет в такое (жмакает картинку в хлам).
Мне вот не дает покоя демо Адобченко, где он показал, что будет\может использовать внешние видеогенераторы как источники видео.
Тут им придется переобуться, ибо до сих пор они декларировали, что все, что отрыгнет их ИИ - это юридически чистый контент и они даже впишутся за своих авторов-подписчиков если что.
В данном случае эта модель перестанет работать, но я не о том сейчас.

А что мешает Адобченко также вструмить Suno и Udio как аудио-генераторы?

А потом GPT-4, Клода или локальный Мистраль как текстовые генераторы (для титров) или генераторы титров по картинке?

А потом DALL·E 3 как генератор картинок (SORA можно, а DALL·E 3 нельзя?!?!). Вон там инпайнтинг завезли, идеально ляжет на фотошопные кисти.

У Адобченко есть инструменты работы со звуком и видео и картинками. С огромной экосистемой. Туторами, коммюнити, культурой.

Всем контент генераторам не хватает нормальных инструментов редактирования. По времени (таймлайн) и по пространству(панель инструментов фотошопа).

Если Адобченко так лихо показал пристегивание внешних генераторов, что мешает ему быть Хабом для генераторов всея ИИ?

Понятно, что у Midjourney нет АПИ. Но это вопрос либо денег и переговоров, либо альтернатив.

В общем у меня теперь не сшивается реальность после их демо Premiere.
Еще раз - SORA можно, а DALL·E 3 нельзя? Вон у них в демо SORA и Firefly сосуществуют мирно, так что вопрос не в эксклюзиве для Firefly.

Что думаете?
Если устали от шквала метрик и хотите сами оценить интеллектуальные способности свежеиспеченной LLAMA 3, а заодно проверить все модели от LLAMA 2 70B до LLAMA 3 70B, можете воспроследовать вот сюда:
https://llama3.replicate.dev/
Работает архибыстро.
Не можешь пофиксить победить - возглавь!
Forwarded from Psy Eyes (Andrey Bezryadin)
This media is not supported in your browser
VIEW IN TELEGRAM
Кто-то наваял удобоваримый интерфейс для генерации музыки — AI Jukebox. Пишешь промт, выбираешь длительность, жанр, настроение, и жмёшь сгенерить.

После Udio это конечно всё не то, но суть вообще в другом: не нужно хостить миллионы треков, так как музыка генерится локально у слушателя. На первом запуске качается 600мб какой-то итерации MusicGen, а дальше через WebGPU оно обрабатывается прямо в браузере (не надо касаться ни кода, ничего).

Следом пойдут маленькие мощные модели, которые будут заточены на определённом стиле типа 90' nu-metal, Berlin techno, Japanese noise, djent, future garage, итд. Люди смогут подключать голоса артистов или звучание групп из их официальных датасетов с выплатами за использование через смарт контракты. Или юзать на халяву народные датасеты, собранные из задоначенного аудио, а также контента в свободном доступе. Подрубят крутилки, чтобы можно было поточнее настроить под себя волну. А для тех, кому нужен детальный контроль над каждым стемом (высотой голоса, позицией инструмента, итд) будут плагины для давок и аудиоредакторов.

Сейчас максимальная длительность на выходе 30 секунд, особо не разбежишься. Хотя Udio ведь по 33 секунды и генерит. Будем ждать когда кто-то пришьёт расширение трека влево/вправо как у них. До новой фичи Krea опенсорс добрался чуть ли не в тот-же день.

Другое дело, что нужен реалтайм, какой-то аналог LCM или Turbo только для аудио, потому что у меня на эти 30 секунд ушло 10 минут генерации. Сколько у вас и на каком железе?

Генерить музыку
Я опросил некоторое количество новоиспеченных владельцев Apple Vision Pro. 99, если не 100 процентов ответов приводятся вот к такому общему знаменателю: "Он классный, но пустой".
Даже неистовые фанаты говорят: "кроме как смотреть кино там делать нечего". И с надеждой добавляют "пока".

Вы помните, как Эппле долго тормозила с выходом лыжной маски? Люди уже ставки начали делать, когда счет пошел на годы.

Все просто - не было киллер-фичи. Не было вот этого убийственного повода взгромоздить полкило железа себе на голову и залипнуть там надолго.

И, честно сказать, я был сильно удивлен, что Эппле все-таки выпустили маску без киллер-фичи.

И все такие "ну щас девелоперы подтянутся и напилят приложений".

Да, но нет. Девелоперы - это девелоперы, а киллер-фичу (и экосистему вокруг нее) никто за Эппле не придумает. И не придумал.

Смотрите, никто не придумал, что делать в метаверсе, кроме как играть. Но даже такой экспириенс как виар-гейминг, не заставил юзеров хоть как-то выйти за рамки 2.5% фриков в шлемах. Ну не хотят кожаные надевать железяки на голову.

В руки брать готовы, на запястье вешать тоже. Но на голову - нет.

Физиология. Безопасность. Выживание.

И я не знаю, какой может быть киллер-фича, которая сделает вот этот вот красиво придуманный spatial computing массовым. Не продуктов в нишах, а массовым явлением.

А пока без киллер-фичи Vision Pro по-прежнему пустой. И похоже покрывается пылью на полках.
Media is too big
VIEW IN TELEGRAM
А метаверсик к нам идет через генерацию миров (или бесконечных скинов для нашего мира) с помощью нейросеток.
Я уже давал примеры стриминга с веб-камеры в Stable Diffusion.

Держите еще один. Еще более близкий к реальности. Здесь это уже крутится на телевизоре и Stable Diffusion взаимодействует с живыми людьми, а не с гиками.

Кому интересно, это все крутится на домашнем компе с 3090 с помощью SD Turbo with LCM LoRa, 2 Steps and CFG 1.6, denoise 0.5 и вот этой приблуды: https://github.com/toyxyz/ComfyUI_toyxyz_test_nodes

Когда в очередной раз будете смотреть телевизор, спросите себя, это точно не нейросеть?
Forwarded from Psy Eyes (Andrey Bezryadin)
Media is too big
VIEW IN TELEGRAM
Постигаем сингулярность

Чуваки из Infinite-Realities (я писал о них ранее) довели свою систему создания 3D/4D сцен из сплатов до коммерческого состояния. Можно запечатлеть всё: от сложных динамичных кадров для кино, так и моменты с семьёй.

В полученной сцене можно свободно управлять камерой, а детализация на высочайшем уровне. Всё воспроизводится в реальном времени в 30 fps на стороннем движке, работающем в виртуальной среде с частотой 120 fps.

Женим теперь это всё с голографическими дисплеями Looking Glass и киберпанк официально прибыл.

Видео в хайрезе на Vimeo
Сайт
Media is too big
VIEW IN TELEGRAM
Продолжаем тему оцифровки мира, скинов для него и гауссианов.
С одной стороны мы можем теперь стримить наш мир через мозги одних нейросеток (Stable Diffusion).
С другой стороны, мы можем пропускать его через мозги других нейросеток (Luma AI), которые восстановят 3Д и покажут наш мир с любого ракурса.
Ну а потом мы может опять позвать первые нейросетки и постримить эти новые ракурсы с новыми скинами (но это я увлекся, пардон).

Смотрите, уже можно оттрехмерить не только видео с дронов и телефонов, можно присунуть им на вход любимые фильмы!

И получить миры этих фильмов, где можно гулять в любом направлении. Вот он намек на развлекательный метаверс!

Ниже ссылки на сцены из культовых фильмов, которые скормили в Luma AI и получили Gaussian Splatting трехмерное представление этих сцен.
По ссылкам можно покрутить эти сцены.
Gaussian Splatting - это аналог микрополигонов, для тех, кто знает, что такое Рендерман.

Источник и полный фарш вот тут.

Погуляйте по ссылкам, покрутите сцены. Реверс инжиниринг в действии.

LOTR: https://lumalabs.ai/capture/176ED9AA-514F-4A45-9343-D4C708C86570

Matrix: https://lumalabs.ai/capture/F358C359-42BE-44B6-BA81-D58C7F75E19D

Citizen Kane: https://lumalabs.ai/capture/4ED192E4-44C9-4550-BC80-2CB130753F5D

Wizard of Oz: https://lumalabs.ai/capture/3D8B463B-62FF-43AF-AD42-B1E47C1213D5

Terminator 2: https://lumalabs.ai/capture/220C2F41-E512-455C-B3EE-47CDD4398743

It's a Wonderful Life: https://lumalabs.ai/capture/F843DABF-89DC-4673-B04A-2EFC2AA04F29

High Noon: https://lumalabs.ai/capture/ED3780E3-822F-4FF5-8CA4-AD99060CCC17

Peewee's Playhouse: https://lumalabs.ai/capture/8863F7C6-6E0D-457A-99A8-2AD30BDC242A

Statue of Liberty, 1929, footage from a Graf Zeppelin: https://lumalabs.ai/capture/24BB48C2-CFC1-4554-B857-F4256413F82B

New York, 1929, footage from a Graf Zeppelin: https://lumalabs.ai/capture/B7E93490-2773-451A-9FFF-7214CFC2A711

New York Skyline from a boat, 1930s, colorized: https://lumalabs.ai/capture/9F704C61-4D60-46BE-A49F-4231EFA167D8
Ну за актеров!

Как в воду глядел.

Помните, тут недавно актеры и сценаристы бастовали против ИИ?
Актеры, в частности, очень озабочены тем, что их внешность может быть отсканирована в 3Д и потом использована без их гениального участия.
Я тогда писал:
Все снова поделится на два лагеря.
Будут актеры (в основном с хорошим портфолио и гонорарами), которые будут сниматься на камеру "по старинке", а за каждый цифровой чих вписывать пару нулей в договор. И будут актеры, которые будут готовы сниматься "для синтеза", то есть цифровать свой стиль, внешность, мимику и пр. для любых последующих манипуляций. Для них это самый доступный пусть Голливуд. А там, может быть повезет, и удастся перебраться в первую категорию.


Новость:

Ведущее голливудское агентство по поиску талантов CAA, как сообщается, тестирует инициативу под названием CAA Vault, позволяющую клиентам из числа знаменитостей создавать искусственные клоны самих себя, чтобы открыть новые творческие возможности.

CAA сотрудничает с компаниями, занимающимися ИИ, чтобы сканировать тела, лица и голоса клиентов, создавая их копии для таких целей, как пересъемка, дубляж и наложение дублей каскадеров.

Цель CAA - в конечном итоге сделать эту технологию доступной для всей индустрии, а не только для своих клиентов.

Тут недавно голливудский магнат Тайлер Перри остановил крупное расширение своей студии после того, как увидел Sora от OpenAI, предсказав масштабное сокращение рабочих мест в индустрии развлечений из-за прогресса ИИ. Что-то почувствовал.

Итого, что мы имеем?
В то время как индустрия борется с последствиями внедрения искусственного интеллекта, CAA принимает упреждающие меры, чтобы помочь клиентам извлечь выгоду из этого изменения. Кто из вас отличит настоящего Тома Круиза от его двойника в кино?

А двойник обойдется в разы дешевле.
https://www.theinformation.com/articles/hollywood-talent-agency-caa-tests-ai-clones
Ну, за кинокритиков.

Недавно писал про запуск Нейро от Яндекса. Также писал про эксперименты Кинопоиска с нейросетками.
А теперь они взяли и скрестили ужа с ежом.
Точнее взяли Нейро и кожаного кинокритика (Даулет Жанайдаров) и задали им одинаковые вопросы:
почему Нолан гений, как Симпсоны предсказывают будущее, худший ли фильм “Комната”, почему Финчер главный режиссер по маньякам, почему Ди Каприо долго не давали Оскар, чем крут Шрэк.
Почитайте тут.
На мой взгляд Нейро зачастую более "конкретен". Не разливается в прилагательных, а довольно четко поясняет за свою позицию.

Кожаный же критик часто углубляется в отступления и виляет в круговороте "с одной стороны, но с другой стороны".

Ну или просто уходит от ответа "все относительно, особенно оценки произведений искусства!", в то время как ИИ нетолерантно пишет, что "«Комната» 2003 года - говно".

Наверное читать кожаного критика интереснее (у меня просто чувство языка отзывается на порядок слов). Там много интересных фактов, иногда не относящихся к делу.

Но если бы я делал просто кино-ресерч, то не факт, что тексты кожаного критика понравились мне больше. Ну и как показывает позиционирование Нейро - он именно для ресерча. Плюс он не такой многословный.

Мне стало интересно спросить его: Почему Игра Престолов лучший сериал всех времен и народов? (Ответ в коментах)

Почитайте дуэль вот тут, занятно:

https://www.kinopoisk.ru/media/article/4009335/
This media is not supported in your browser
VIEW IN TELEGRAM
Видеогигаган 8Х.

Топаз нервно закуривает овальные сигареты.
Адобченко показал Видеогигаган - свой 8Х апскейлер для видео.
https://videogigagan.github.io/ (очень много примеров)
VideoGigaGAN базируется на апскейлере изображений - GigaGAN. Простое раздувание GigaGAN до видеомодели путем добавления временных модулей приводит к сильному временному мерцанию. В отличие от предыдущих методов, VideoGigaGAN генерирует темпорально согласованные видео с более тонкими деталями.

И мой пойнт, как обычно, в том, что это будет встроено в текущую экосистему и пайплайны. Не надо брать видео, ходить с ним куда-то в нейродебри, приносить обратно. Все в одном месте.

Кода и демо нет, но я ожидаю демо и еще очень много чего на грядущем Adobe MAX, который вот-вот начнется - можно смотреть тут:
https://www.youtube.com/watch?v=NA0hFqIHfro

Может и про интеграцию с SORA расскажут подробнее...
Боятся ли VFX-специалисты прогресса нейросетей?

Вчера пока сражался с Нейро на Кинопоиске обнаружил вот такую статью. И там ВСЕ знакомые лица. Причем знакомые по 10-20 лет.

Самый пессимист, конечно Даня: «Кто говорит, что AI — это просто инструмент, давайте дружить! Вместе будем разносить еду в кафе и мыть посуду». Скорее всего, нам всем придется менять профессию, но не в смысле «делать то же самое, но как-то на новый лад», а вообще заниматься чем-то другим.

Гоша - оптимист: Почему покрутить промпт хуже, чем покрутить ручками проект? Непонятно.

Саня - выше суеты: Если говорить о нейросетях в CG-индустрии, то я не вижу проблемы, с которой надо бороться.

CGF действительно внедряли ML, когда я еще ИИ-глупости в фб писал (и до сих пор пишу тут).

В общем все по Гауссу, от негатива до позитива с мейнстримом посередине.

Но меня цепанула сентенция Дани про профсоюз. И тут я с ним согласен:
Права CGI-специалистов никак не защищены по сравнению с представителями других творческих профессий. Наличие профсоюзов у актеров и сценаристов — это следствие реалий времени% они сформировались в 20–30-х годах прошлого века, когда в обществе был глобальный тренд на создание профсоюзов в больших секторах профессий, и творческие специальности проехали туда прицепом. Постпродакшен опоздал на эту вечеринку примерно на 60 лет, к тому же пост гораздо легче аутсорсить в места с более дешевым трудом и меньшим количеством разговоров о правах. Я не очень верю в шансы создания глобального профсоюза CG-индустрии в обозримом будущем. Все проблемы, что мы видим в индустрии сейчас, будут только усугубляться. Чем это закончится, я не берусь предсказать.

https://www.kinopoisk.ru/media/article/4009359/
This media is not supported in your browser
VIEW IN TELEGRAM
Я уже писал про SORA-клипы от Пола Трилло.

Похоже SORA становится просто инструментом - TED заказал Полу клип для продвижения нового сезона выступлений TED, который будет посвящен искусственному интеллекту и изучению того, что TED будет освещать через 40 лет.

Клип эмулирует полет FPV-дрона: похоже скил пилотирования дронов теперь конвертируется в скил пилотирования Сорой.

Из интересных утечек:

Трилло рассказал о промптах, которые он использует, в том числе о «коктейле слов, который я использую, чтобы сделать это не похожим на видеоигру, а на что-то более кинематографическое». Очевидно, они включают в себя такие подсказки, как «35 миллиметров», «анаморфотный объектив» и «виньетка объектива с глубиной резкости», которые необходимы, иначе Сора «по умолчанию будет использовать этот очень цифровой результат».

Всего он нагенерил 330 клипов в Соре, отобрал 25, а дальше - старый добрый кожаный монтаж.

И да, лого Тэда - тоже кожаное, приделанное на посте.

https://www.techradar.com/computing/artificial-intelligence/openais-new-sora-video-is-an-fpv-drone-ride-through-the-strangest-ted-talk-youve-ever-seen-and-i-need-to-lie-down