Метаверсище и ИИще

Замени говорю, котов на собак, потом на свиней, потом на людей. Он точно про нас что-то знает.
(про свиней тоже, зацените прикиды хрюш)
Промпт был "дай много котов, смотрящих в камеру"

5.5K viewsSergey Tsyptsyn ️️, 22:40

Метаверсище и ИИще

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

Примеры оживляжа картинок кнопкой Animate

5.8K viewsSergey Tsyptsyn ️️, 22:40

Метаверсище и ИИще

А тем временем Stability AI увольняет около 10 процентов своих сотрудников, около 20 человек.
Пишут:
Решение об увольнении сотрудников является частью "стратегического плана по сокращению расходов, укреплению поддержки наших инвесторов и партнеров, а также предоставлению командам возможности продолжать разработку и выпуск инновационных продуктов".

Что ж такое там происходит? Мы тут все алкаем SD3, а кто ея будет допиливать?

https://www.theverge.com/2024/4/18/24133996/stability-ai-lay-off-emad-mostaque

The Verge

Stability AI lays off roughly 10 percent of its workforce

The Stable Diffusion operator let go of around 20 people.

6.2K viewsSergey Tsyptsyn ️️, edited 07:07

Метаверсище и ИИще

4:58

This media is not supported in your browser

VIEW IN TELEGRAM

Вынесу из коментариев такой пример генерации от подписчика Mike:

"The Truth" - песня о поиске истины.

"Постарался вытянуть из Suno максимум (сначала мучил Udio, но результат был хуже).
Потратил около 5 часов, 90+ генераций, нарезка, чистка, маскировка артефактов звуковыми эффектами. И монтаж в Blender (не удивляйтесь)."

Это я к тому, что:
- ИИ можно допинывать до годного или до нужного тебе, ИИ тут вполне себе инструмент
- это стоит времени, если есть заказчик и не стоИт задача генерить тысячу треков в час.
- можно конечно жать кнопку "Давай еще", но этот подход не работает, как с картинками, музика немного сложнее
- для видео и аудио генераторов точно нужен интерфейс для редактирования треков. Об этом след пост.

А пока послушайте. Мне это слышится скорее как закрывающий трек для эпизода какого-то сериала. Обратите внимание как сделаны шумы (на картинке ответ).

P.S. Mike прислал картинку и mp3. Я просто спросил chatGPT:
I have png image and mp3 file - I need to make mp4 video using ffmpeg - give me ffmpeg comand

chatGPT: Апажалста: ffmpeg -loop 1 -framerate 1 -i image.png -i audio.mp3 -c:v libx264 -tune stillimage -c:a aac -b:a 192k -pix_fmt yuv420p -shortest output.mp4

Ибо Movavi не умеет в такое (жмакает картинку в хлам).

6.1K viewsSergey Tsyptsyn ️️, 08:26

Метаверсище и ИИще

Мне вот не дает покоя демо Адобченко, где он показал, что будет\может использовать внешние видеогенераторы как источники видео.
Тут им придется переобуться, ибо до сих пор они декларировали, что все, что отрыгнет их ИИ - это юридически чистый контент и они даже впишутся за своих авторов-подписчиков если что.
В данном случае эта модель перестанет работать, но я не о том сейчас.

А что мешает Адобченко также вструмить Suno и Udio как аудио-генераторы?

А потом GPT-4, Клода или локальный Мистраль как текстовые генераторы (для титров) или генераторы титров по картинке?

А потом DALL·E 3 как генератор картинок (SORA можно, а DALL·E 3 нельзя?!?!). Вон там инпайнтинг завезли, идеально ляжет на фотошопные кисти.

У Адобченко есть инструменты работы со звуком и видео и картинками. С огромной экосистемой. Туторами, коммюнити, культурой.

Всем контент генераторам не хватает нормальных инструментов редактирования. По времени (таймлайн) и по пространству(панель инструментов фотошопа).

Если Адобченко так лихо показал пристегивание внешних генераторов, что мешает ему быть Хабом для генераторов всея ИИ?

Понятно, что у Midjourney нет АПИ. Но это вопрос либо денег и переговоров, либо альтернатив.

В общем у меня теперь не сшивается реальность после их демо Premiere.
Еще раз - SORA можно, а DALL·E 3 нельзя? Вон у них в демо SORA и Firefly сосуществуют мирно, так что вопрос не в эксклюзиве для Firefly.

Что думаете?

Метаверсище и ИИще

Нейрокомпоз от Адобченко.

Так, мы все бросаем и смотрим вот сюда:
https://www.youtube.com/watch?v=6de4akFiNYM

До конца. Потому что там не только автокей, удаление или добавление объектов и прочий нейрокомпоз в Премьере. Там еще можно выделить видеотрек…

6.7K viewsSergey Tsyptsyn ️️, edited 08:41

Метаверсище и ИИще

Если устали от шквала метрик и хотите сами оценить интеллектуальные способности свежеиспеченной LLAMA 3, а заодно проверить все модели от LLAMA 2 70B до LLAMA 3 70B, можете воспроследовать вот сюда:
https://llama3.replicate.dev/
Работает архибыстро.

7.4K viewsSergey Tsyptsyn ️️, 08:53

Метаверсище и ИИще

Не можешь ~~пофиксить~~ победить - возглавь!

6.6K viewsSergey Tsyptsyn ️️, edited 10:58

Метаверсище и ИИще

Forwarded from Psy Eyes (Andrey Bezryadin)

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

Кто-то наваял удобоваримый интерфейс для генерации музыки — AI Jukebox. Пишешь промт, выбираешь длительность, жанр, настроение, и жмёшь сгенерить.

После Udio это конечно всё не то, но суть вообще в другом: не нужно хостить миллионы треков, так как музыка генерится локально у слушателя. На первом запуске качается 600мб какой-то итерации MusicGen, а дальше через WebGPU оно обрабатывается прямо в браузере (не надо касаться ни кода, ничего).

Следом пойдут маленькие мощные модели, которые будут заточены на определённом стиле типа 90' nu-metal, Berlin techno, Japanese noise, djent, future garage, итд. Люди смогут подключать голоса артистов или звучание групп из их официальных датасетов с выплатами за использование через смарт контракты. Или юзать на халяву народные датасеты, собранные из задоначенного аудио, а также контента в свободном доступе. Подрубят крутилки, чтобы можно было поточнее настроить под себя волну. А для тех, кому нужен детальный контроль над каждым стемом (высотой голоса, позицией инструмента, итд) будут плагины для давок и аудиоредакторов.

Сейчас максимальная длительность на выходе 30 секунд, особо не разбежишься. Хотя Udio ведь по 33 секунды и генерит. Будем ждать когда кто-то пришьёт расширение трека влево/вправо как у них. До новой фичи Krea опенсорс добрался чуть ли не в тот-же день.

Другое дело, что нужен реалтайм, какой-то аналог LCM или Turbo только для аудио, потому что у меня на эти 30 секунд ушло 10 минут генерации. Сколько у вас и на каком железе?

Генерить музыку

5.7K viewsSergey Tsyptsyn ️️, 07:55

Метаверсище и ИИще

Я опросил некоторое количество новоиспеченных владельцев Apple Vision Pro. 99, если не 100 процентов ответов приводятся вот к такому общему знаменателю: "Он классный, но пустой".
Даже неистовые фанаты говорят: "кроме как смотреть кино там делать нечего". И с надеждой добавляют "пока".

Вы помните, как Эппле долго тормозила с выходом лыжной маски? Люди уже ставки начали делать, когда счет пошел на годы.

Все просто - не было киллер-фичи. Не было вот этого убийственного повода взгромоздить полкило железа себе на голову и залипнуть там надолго.

И, честно сказать, я был сильно удивлен, что Эппле все-таки выпустили маску без киллер-фичи.

И все такие "ну щас девелоперы подтянутся и напилят приложений".

Да, но нет. Девелоперы - это девелоперы, а киллер-фичу (и экосистему вокруг нее) никто за Эппле не придумает. И не придумал.

Смотрите, никто не придумал, что делать в метаверсе, кроме как играть. Но даже такой экспириенс как виар-гейминг, не заставил юзеров хоть как-то выйти за рамки 2.5% фриков в шлемах. Ну не хотят кожаные надевать железяки на голову.

В руки брать готовы, на запястье вешать тоже. Но на голову - нет.

Физиология. Безопасность. Выживание.

И я не знаю, какой может быть киллер-фича, которая сделает вот этот вот красиво придуманный spatial computing массовым. Не продуктов в нишах, а массовым явлением.

А пока без киллер-фичи Vision Pro по-прежнему пустой. И похоже покрывается пылью на полках.

5.7K viewsSergey Tsyptsyn ️️, 10:15

А метаверсик к нам идет через генерацию миров (или бесконечных скинов для нашего мира) с помощью нейросеток.
Я уже давал примеры стриминга с веб-камеры в Stable Diffusion.

Держите еще один. Еще более близкий к реальности. Здесь это уже крутится на телевизоре и Stable Diffusion взаимодействует с живыми людьми, а не с гиками.

Кому интересно, это все крутится на домашнем компе с 3090 с помощью SD Turbo with LCM LoRa, 2 Steps and CFG 1.6, denoise 0.5 и вот этой приблуды: https://github.com/toyxyz/ComfyUI_toyxyz_test_nodes

Когда в очередной раз будете смотреть телевизор, спросите себя, это точно не нейросеть?

5.5K viewsSergey Tsyptsyn ️️, edited 10:27

Метаверсище и ИИще

Forwarded from Psy Eyes (Andrey Bezryadin)

2:21

Media is too big

VIEW IN TELEGRAM

Постигаем сингулярность

Чуваки из Infinite-Realities (я писал о них ранее) довели свою систему создания 3D/4D сцен из сплатов до коммерческого состояния. Можно запечатлеть всё: от сложных динамичных кадров для кино, так и моменты с семьёй.

В полученной сцене можно свободно управлять камерой, а детализация на высочайшем уровне. Всё воспроизводится в реальном времени в 30 fps на стороннем движке, работающем в виртуальной среде с частотой 120 fps.

Женим теперь это всё с голографическими дисплеями Looking Glass и киберпанк официально прибыл.

Видео в хайрезе на Vimeo
Сайт

4.8K viewsSergey Tsyptsyn ️️, 10:35

Продолжаем тему оцифровки мира, скинов для него и гауссианов.
С одной стороны мы можем теперь стримить наш мир через мозги одних нейросеток (Stable Diffusion).
С другой стороны, мы можем пропускать его через мозги других нейросеток (Luma AI), которые восстановят 3Д и покажут наш мир с любого ракурса.
Ну а потом мы может опять позвать первые нейросетки и постримить эти новые ракурсы с новыми скинами (но это я увлекся, пардон).

Смотрите, уже можно оттрехмерить не только видео с дронов и телефонов, можно присунуть им на вход любимые фильмы!

И получить миры этих фильмов, где можно гулять в любом направлении. Вот он намек на развлекательный метаверс!

Ниже ссылки на сцены из культовых фильмов, которые скормили в Luma AI и получили Gaussian Splatting трехмерное представление этих сцен.
По ссылкам можно покрутить эти сцены.
Gaussian Splatting - это аналог микрополигонов, для тех, кто знает, что такое Рендерман.

Источник и полный фарш вот тут.

Погуляйте по ссылкам, покрутите сцены. Реверс инжиниринг в действии.

LOTR: https://lumalabs.ai/capture/176ED9AA-514F-4A45-9343-D4C708C86570

Matrix: https://lumalabs.ai/capture/F358C359-42BE-44B6-BA81-D58C7F75E19D

Citizen Kane: https://lumalabs.ai/capture/4ED192E4-44C9-4550-BC80-2CB130753F5D

Wizard of Oz: https://lumalabs.ai/capture/3D8B463B-62FF-43AF-AD42-B1E47C1213D5

Terminator 2: https://lumalabs.ai/capture/220C2F41-E512-455C-B3EE-47CDD4398743

It's a Wonderful Life: https://lumalabs.ai/capture/F843DABF-89DC-4673-B04A-2EFC2AA04F29

High Noon: https://lumalabs.ai/capture/ED3780E3-822F-4FF5-8CA4-AD99060CCC17

Peewee's Playhouse: https://lumalabs.ai/capture/8863F7C6-6E0D-457A-99A8-2AD30BDC242A

Statue of Liberty, 1929, footage from a Graf Zeppelin: https://lumalabs.ai/capture/24BB48C2-CFC1-4554-B857-F4256413F82B

New York, 1929, footage from a Graf Zeppelin: https://lumalabs.ai/capture/B7E93490-2773-451A-9FFF-7214CFC2A711

New York Skyline from a boat, 1930s, colorized: https://lumalabs.ai/capture/9F704C61-4D60-46BE-A49F-4231EFA167D8

5.7K viewsSergey Tsyptsyn ️️, edited 11:00

Метаверсище и ИИще

Ну за актеров!

Как в воду глядел.

Помните, тут недавно актеры и сценаристы бастовали против ИИ?
Актеры, в частности, очень озабочены тем, что их внешность может быть отсканирована в 3Д и потом использована без их гениального участия.
Я тогда писал:
Все снова поделится на два лагеря.
Будут актеры (в основном с хорошим портфолио и гонорарами), которые будут сниматься на камеру "по старинке", а за каждый цифровой чих вписывать пару нулей в договор. И будут актеры, которые будут готовы сниматься "для синтеза", то есть цифровать свой стиль, внешность, мимику и пр. для любых последующих манипуляций. Для них это самый доступный пусть Голливуд. А там, может быть повезет, и удастся перебраться в первую категорию.

Новость:

Ведущее голливудское агентство по поиску талантов CAA, как сообщается, тестирует инициативу под названием CAA Vault, позволяющую клиентам из числа знаменитостей создавать искусственные клоны самих себя, чтобы открыть новые творческие возможности.

CAA сотрудничает с компаниями, занимающимися ИИ, чтобы сканировать тела, лица и голоса клиентов, создавая их копии для таких целей, как пересъемка, дубляж и наложение дублей каскадеров.

Цель CAA - в конечном итоге сделать эту технологию доступной для всей индустрии, а не только для своих клиентов.

Тут недавно голливудский магнат Тайлер Перри остановил крупное расширение своей студии после того, как увидел Sora от OpenAI, предсказав масштабное сокращение рабочих мест в индустрии развлечений из-за прогресса ИИ. Что-то почувствовал.

Итого, что мы имеем?
В то время как индустрия борется с последствиями внедрения искусственного интеллекта, CAA принимает упреждающие меры, чтобы помочь клиентам извлечь выгоду из этого изменения. Кто из вас отличит настоящего Тома Круиза от его двойника в кино?

А двойник обойдется в разы дешевле.
https://www.theinformation.com/articles/hollywood-talent-agency-caa-tests-ai-clones

the Guardian

Tyler Perry halts $800m studio expansion after being shocked by AI

US film and TV mogul says he has paused his plans, having seen demonstrations of OpenAI video generator

5.4K viewsSergey Tsyptsyn ️️, 14:17

Метаверсище и ИИще

Ну, за кинокритиков.

Недавно писал про запуск Нейро от Яндекса. Также писал про эксперименты Кинопоиска с нейросетками.
А теперь они взяли и скрестили ужа с ежом.
Точнее взяли Нейро и кожаного кинокритика (Даулет Жанайдаров) и задали им одинаковые вопросы:
почему Нолан гений, как Симпсоны предсказывают будущее, худший ли фильм “Комната”, почему Финчер главный режиссер по маньякам, почему Ди Каприо долго не давали Оскар, чем крут Шрэк.
Почитайте тут.
На мой взгляд Нейро зачастую более "конкретен". Не разливается в прилагательных, а довольно четко поясняет за свою позицию.

Кожаный же критик часто углубляется в отступления и виляет в круговороте "с одной стороны, но с другой стороны".

Ну или просто уходит от ответа "все относительно, особенно оценки произведений искусства!", в то время как ИИ нетолерантно пишет, что "«Комната» 2003 года - говно".

Наверное читать кожаного критика интереснее (у меня просто чувство языка отзывается на порядок слов). Там много интересных фактов, иногда не относящихся к делу.

Но если бы я делал просто кино-ресерч, то не факт, что тексты кожаного критика понравились мне больше. Ну и как показывает позиционирование Нейро - он именно для ресерча. Плюс он не такой многословный.

Мне стало интересно спросить его: Почему Игра Престолов лучший сериал всех времен и народов? (Ответ в коментах)

Почитайте дуэль вот тут, занятно:

https://www.kinopoisk.ru/media/article/4009335/

Кинопоиск

Почему Нолан — гений и за что все любят Шрэка? Отвечаем на вопросы о кино вместе с нейронным критиком и обычным — Статьи на Кинопоиске

Яндекс запустил сервис Нейро. Он использует мощности YandexGPT 3 и поиска и может дать пользователю исчерпывающий ответ на его вопрос. Сервис снабдит свой ответ ссылками на источники и резюмирует все, что нашел в них. Кинопоиск решил задать вопросы о массовой…

5.8K viewsSergey Tsyptsyn ️️, edited 14:20

Метаверсище и ИИще

0:58

This media is not supported in your browser

VIEW IN TELEGRAM

Видеогигаган 8Х.

Топаз нервно закуривает овальные сигареты.
Адобченко показал Видеогигаган - свой 8Х апскейлер для видео.
https://videogigagan.github.io/ (очень много примеров)
VideoGigaGAN базируется на апскейлере изображений - GigaGAN. Простое раздувание GigaGAN до видеомодели путем добавления временных модулей приводит к сильному временному мерцанию. В отличие от предыдущих методов, VideoGigaGAN генерирует темпорально согласованные видео с более тонкими деталями.

И мой пойнт, как обычно, в том, что это будет встроено в текущую экосистему и пайплайны. Не надо брать видео, ходить с ним куда-то в нейродебри, приносить обратно. Все в одном месте.

Кода и демо нет, но я ожидаю демо и еще очень много чего на грядущем Adobe MAX, который вот-вот начнется - можно смотреть тут:
https://www.youtube.com/watch?v=NA0hFqIHfro

Может и про интеграцию с SORA расскажут подробнее...

5.7K viewsSergey Tsyptsyn ️️, edited 09:54

Метаверсище и ИИще

Боятся ли VFX-специалисты прогресса нейросетей?

Вчера пока сражался с Нейро на Кинопоиске обнаружил вот такую статью. И там ВСЕ знакомые лица. Причем знакомые по 10-20 лет.

Самый пессимист, конечно Даня: «Кто говорит, что AI — это просто инструмент, давайте дружить! Вместе будем разносить еду в кафе и мыть посуду». Скорее всего, нам всем придется менять профессию, но не в смысле «делать то же самое, но как-то на новый лад», а вообще заниматься чем-то другим.

Гоша - оптимист: Почему покрутить промпт хуже, чем покрутить ручками проект? Непонятно.

Саня - выше суеты: Если говорить о нейросетях в CG-индустрии, то я не вижу проблемы, с которой надо бороться.

CGF действительно внедряли ML, когда я еще ИИ-глупости в фб писал (и до сих пор пишу тут).

В общем все по Гауссу, от негатива до позитива с мейнстримом посередине.

Но меня цепанула сентенция Дани про профсоюз. И тут я с ним согласен:
Права CGI-специалистов никак не защищены по сравнению с представителями других творческих профессий. Наличие профсоюзов у актеров и сценаристов — это следствие реалий времени% они сформировались в 20–30-х годах прошлого века, когда в обществе был глобальный тренд на создание профсоюзов в больших секторах профессий, и творческие специальности проехали туда прицепом. Постпродакшен опоздал на эту вечеринку примерно на 60 лет, к тому же пост гораздо легче аутсорсить в места с более дешевым трудом и меньшим количеством разговоров о правах. Я не очень верю в шансы создания глобального профсоюза CG-индустрии в обозримом будущем. Все проблемы, что мы видим в индустрии сейчас, будут только усугубляться. Чем это закончится, я не берусь предсказать.

https://www.kinopoisk.ru/media/article/4009359/

Кинопоиск

Боятся ли VFX-специалисты прогресса нейросетей в видео? Мы их спросили! — Статьи на Кинопоиске

Sora и Pika уже сегодня демонстрируют небывалое качество сгенерированных искусственным интеллектом видео, а уже завтра инструменты для создания видео станут такими же простыми и доступными, как Midjourney и DALL-E. Что ждет кино в связи с этим? А тех, кто…

5.3K viewsSergey Tsyptsyn ️️, edited 10:10

Метаверсище и ИИще

1:33

This media is not supported in your browser

VIEW IN TELEGRAM

Я уже писал про SORA-клипы от Пола Трилло.

Похоже SORA становится просто инструментом - TED заказал Полу клип для продвижения нового сезона выступлений TED, который будет посвящен искусственному интеллекту и изучению того, что TED будет освещать через 40 лет.

Клип эмулирует полет FPV-дрона: похоже скил пилотирования дронов теперь конвертируется в скил пилотирования Сорой.

Из интересных утечек:

Трилло рассказал о промптах, которые он использует, в том числе о «коктейле слов, который я использую, чтобы сделать это не похожим на видеоигру, а на что-то более кинематографическое». Очевидно, они включают в себя такие подсказки, как «35 миллиметров», «анаморфотный объектив» и «виньетка объектива с глубиной резкости», которые необходимы, иначе Сора «по умолчанию будет использовать этот очень цифровой результат».

Всего он нагенерил 330 клипов в Соре, отобрал 25, а дальше - старый добрый кожаный монтаж.

И да, лого Тэда - тоже кожаное, приделанное на посте.

https://www.techradar.com/computing/artificial-intelligence/openais-new-sora-video-is-an-fpv-drone-ride-through-the-strangest-ted-talk-youve-ever-seen-and-i-need-to-lie-down

5.8K viewsSergey Tsyptsyn ️️, edited 10:50

About

Blog

Apps

Platform