Метаверсище и ИИще
49.7K subscribers
6.19K photos
4.79K videos
48 files
7.13K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Генератор музыки от Гугла обновился

Lyria 3 Pro теперь может генерить треки до 3 минут, а не 30 секунд, как раньше.

Я проверил, действительно работает в Gemini https://gemini.google.com/ - создай, говорю мне фанка с синкопами.
- А пажалста!

В Гемини работает для платных планов (у меня дешевый Pro)

Зашел в Producer.ai - там тоже работает, генерит треки по 2+ минуты. Там, кстати, обещают доступ и для бесплатных планов.

Почитайте про доступы подробнее тут:
https://blog.google/innovation-and-ai/technology/ai/lyria-3-pro/

Звучит суховато, ни о каком сравнении с Суно речи не идет.

Ну и самое главное - функционал минимальный. Все это - окошко чата с кнопачками и галачками.

После Суно - это как бы игрушка.

Потестируйте звук сами.

Скачивает видосы со статической обложкой какого-то конского размера, по 25 мб.

@cgevent
1👍95😱4😁2
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

"Реклама автомобиля Torres от KGM"

Авторы: команда Maikers (@shura_mk, @Jason_hightop, @b0nus33)

Ролик делался в рамках участия в 24 часовом оффлайн хакатоне Skillout на площадке Сколково, где 24 команды ИИ креаторов по 3 человека в команде должны были сделать один или несколько рекламных роликов по брифам спонсоров, всего было 3 спонсора:
- 1. Машинка от KGM (он же SsangYong);
- 2. Смеси детского питания от бренда Kabrita;
- 3. Сервис по доставке и выращиванию съедобных цветов для ресторанов Ninja Goods).
Тайминг рекламы должен был быть от 30 секунд до 1 минуты строго. Мы выбрали рекламу машинок от KGM (он же SsangYong), решили уйти от идеи банальной рекламы и сделать что-то эпичное и запоминающееся (в итоге победила всё таки классическая реклама). Идея родилась быстро в течении 1 часа, с помощью естественного интеллекта, придумали показать машинку в экстремальных, апокалиптических условиях, которая спасает жизни в атмосфере полного спокойствия внутри. Время создания ролика примерно 20 часов от идеи до финальной реализации. Сразу решили, что для такой идеи будем использовать единственно возможный вариант, а именно seedance 2.0. Решили, что будет 4 сцены апокалипсиса (по 15 секунд на каждую):
1-ая: погоня от извергающегося вулкана сурового маскулинного мужика;
2-ая: погоня от неистового цунами семьи с ребенком;
3-ая: погоня из города полного зомби пожилой пары с харизматичной бабулей с толикой юмора;
4-ая: объединение всех выживших героев на прекрасных машинах) в лагере для выживших, куда ясное дело смогли приехать только обладатели машин от бренда).
На раскадровку в Банане про ушло порядка 6-8 часов, причем с учетом возможностей делать отличные самостоятельные мультишоты в Seedance 2, делали в основном только ключевые кадры, которые Seedance 2 потом сам разбивал на нужные кадры текстовыми промтами. Следующие 10 часов потратили на множество мультишотных генераций в сидансе, там где сиданс выдавал не достаточно референсный результат по отношению к интерьеру/экстерьеру машинки использовали Kling 3 (в основном крупные планы деталей авто). В итоге получилось примерно 7-8 минут супердинамичного видео, которое потом резали по живому оставляя самый сок.
Саундтрек выбирали пока генерится видео в сидансе. Заремиксили в Suno один из треков к фильму Безумный Макс.
Оставшиеся 2 часа потратили на максимально динамичный монтаж в Кап-кат про.
Совокупный бюджет плюс минус 100 долларов на подписки для 3-х человек в Хиггсе, seedance 2 и действущих во Flow.
Учитывая скорость создания видео, понятное дело без огрех не обошлось. В целом, хоть мы и не победили , хотелось бы узнать мнения на что можно было обратить внимание и сделать лучше.


@cgevent
2🔥45👎38👍2015😁12
Промпты типа "ты эксперт"

Иногда помогают, иногда мешают.

Интересный пост на эту тему:
https://www.linkedin.com/posts/ekiledjian_expert-personas-improve-llm-alignment-but-activity-7442170166022397952-ChNb/
Перевел его почти целиком.

Новое исследование Университета Южной Калифорнии («Экспертные персоны улучшают согласование с языковыми моделями, но ухудшают точность») протестировало экспертные подсказки для создания персон в шести крупных языковых моделях и, наконец, объясняет, почему сообщество получило такие противоречивые результаты.

Вывод прост, но важен: подсказки для создания персон — это инструмент согласования(alignment), а не инструмент получения знаний.

Когда персоны ПОМОГАЮТ:
→ Тон и стиль письма (оценки выросли с 7/10 до 9/10 при составлении профессиональных электронных писем)
→ Безопасность и отказ (устойчивость к взлому улучшилась до 17,7%)
→ Соблюдение формата, структурированный вывод и следование намерениям
→ Более длинные и подробные описания персон усиливают эти преимущества

Когда персоны ВРЕДЯТ:
→ Фактическая точность и поиск знаний (точность снизилась с 71,6% до 68,0%)
→ Математические и логические рассуждения (один пример ухудшился с 9/10 до 1,5/10)
Задачи программирования, требующие точного запоминания
→ Более длинные описания персон усугубляют ситуацию

Пять вещей, которые вы можете сделать прямо сейчас:

1. Используйте персоны для творческих, редакционных и задач, требующих соблюдения требований. Откажитесь от них для поиска фактов, вычислений и логики кода.

2. Размещайте описания персон в системном запросе, а не в сообщении пользователя — это важно для хорошо оптимизированных моделей.

3. Если вы используете модели рассуждений (например, DeepSeek R1), полностью откажитесь от использования экспертных персон. Исследования показывают, что случайная персона работает так же хорошо — модель выигрывает только от увеличения контекстной длины, а не от экспертных знаний.

4. Для повышения уровня безопасности одним из самых дешевых и эффективных способов является использование специальной "safety monitor" persona в системном запросе.

5. Когда вам необходимо использовать персону в работе, требующей высокой точности, делайте ее как можно короче, чтобы минимизировать помехи при запоминании фактов.

Итог: рассматривайте подсказки с описанием персон как усилитель тона и согласованности, а не как средство повышения уровня знаний. Знание того, когда их использовать, а когда убирать, является реальным конкурентным преимуществом.

@cgevent
4👍348🔥2😁2😱1
Гигантский датасет трехмерных голов.

Взяли и отсканировали 7547 человек, причем каждого с 11 выражениями лица ( счастье, печаль, гнев, удивление, страх, отвращение)

А дальше тщательно все отретопили и привели к двум топологиям на 200К и 7М полигонов для ВСЕХ лиц. Топологии между собой СОВПАДАЮТ, то есть можно их морфить между собой, как по эмоциям, так и по собственно людям. И получать бесконечное количество новых тварей.

Поглядите на сайт:
https://www.sp-6m.com/

Почитайте цифры.

Помимо 3Д, может пригодится для тренировки нейронок на синтетических лицах и распознавания эмоций.

Ничего скачать нельзя, за лицензированием и использованием надо обращаться в авторам проекта. Координаты на сайте.

Впечатляющий труд.

@cgevent
2🔥63😱169👍1
Dynamic VRAM: гики, обновите ComfyUI

Туда завезли оптимизацию VRAM и RAM. Меньше требования к памяти.

"Функция Dynamic VRAM кардинально меняет подход ComfyUI к обработке весов моделей, что значительно повышает плавность работы для пользователей, использующих оборудование с ограниченным объемом памяти"

https://blog.comfy.org/p/dynamic-vram-in-comfyui-saving-local

@cgevent
2🔥43😱62
This media is not supported in your browser
VIEW IN TELEGRAM
Вайб-метаверсинг

Новый и очень интересный проект от Гугла:
Vibe Coding XR: Accelerating AI + XR prototyping with XR Blocks and Gemini

Можно еще сказать - вайб-прототайпинг или вайб-3Дсборка

Речь идет о быстрой разработке приложений дополненной и виртуальной реальности (XR\VR), который позволяет превращать идеи в рабочие прототипы менее чем за минуту.

Ну и правда, обычные приложения уже вайб-кодят, можно взяться за пространственные интерфейсы.

Что внутри:

Связка Gemini + XR Blocks: Gemini выступает в роли эксперта-дизайнера и инженера, понимая пространственную логику.

XR Blocks - это open-source фреймворк на базе WebXR, который берет на себя сложные задачи: физику, распознавание окружения и взаимодействие рук.

Как это работает:

Пользователь описывает желаемое (голосом или текстом, например: «Создай интерактивную лабораторию физики»), и система за 60 секунд генерирует полностью функциональное приложение для Android XR или настольного браузера (в симуляторе).

Обязательно посмотрите примеры по ссылке внизу, вайб-метаверс как он есть.
Google показывает, что такой подход подходит не только для демо, но и для образовательных сценариев. Среди примеров — XR-приложения для геометрии, физики, химии и даже визуализации идеи кота Шрёдингера. По сути, компания продвигает будущее, в котором создание пространственных интерфейсов и учебных XR-опытов станет таким же быстрым и доступным, как сегодня генерация обычных веб-прототипов с ИИ наперевес.

https://research.google/blog/vibe-coding-xr-accelerating-ai-xr-prototyping-with-xr-blocks-and-gemini/

https://github.com/google/xrblocks

Демо: https://xrblocks.github.io/docs/samples/ModelViewer/

https://www.youtube.com/watch?v=nknCzIxHHzw

@cgevent
👍287👎4😱1
Runway Multi-Shot App

Все без исключения ролики выше сделаны по довольно простым и недлинным промптам.

Без всякого
"Камера1 - бежим
Камера2 - лежим
Камера3 - мешки ворочаем"

Ну то есть ИИ за вас делает мульти-ракурсы и сам решает, где порезать и куда поставить камеру и какой план взять: крупняк, погрудный или общий.

Мне нравится результат, но не нравится замысел. Юзеры, которые и так ни хрена не смыслят в монтаже, вконец потеряют мотивацию что-то изучать. И будут у нас Нейропрожарки по шаблонам Рунвея (и всех, кто это срочно скопирует).

Видео - это 95% монтаж. И он сложный, мать его.

Раскатывают тут:
https://app.runwayml.com/video-tools/teams/cgevent/ai-tools/generate?mode=apps

Если интересный промпты к видосам выше, то они тут:
https://x.com/runwayml/status/2037170118669500537

Лев, конечно, нарядный вышел:

A hyper realistic lion lying on a therapist couch, talking about how hard it is for him to eat the cutest animals. Why not snakes? Why not spiders? No… it has to be zebras. God damn.


@cgevent
👍31🔥196
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

ROCKY

Автор: Сергей Титов. 3D/2D Motion Designer Generalist, DJ. @no_limit_to_the_infinite

Не устоял и сделал рекламный ролик с помощью ИИ.
У меня еще 3 года назад была идея рекламы охранной системы для дома.
Но не решался, так как понимал, что в полноценном 3D я его один делать буду месяца полтора, не меньше.
Где в потоке работы найти это время? :)
И тут думаю, а че бы не попробовать его с помощью нейронок сделать? Ведь регулярно их в работе использую. Заодно прикину, сколько это стоит и сколько времени.

Работал на платформах Higgsfield и Syntx. Я не спец в промптах, поэтому почти во всех случаях искал или собирал в Photoshop подходящие референсы по композиции и ракурсу. Потом генерировал ключевые кадры в Nano Banana Pro и Seedream 5 Lite. Апскейлил изображения в Clarity, если качество терялось при перегенерациях. А иногда пересобирал шот в Photoshop из нескольких итераций, чтобы первоначальное качество изображения оставить. В Photoshop еще хорошо убирать лишние элементы с помощью "Generative Fill".

Видео генерил почти везде в Kling 3.0 по начальному и конечному фрейму. В некоторых местах Seedream 1.5, она очень хорошо справилась со сценой трансформации меха из шара. Экшн сцены ооооочень трудно давались: то персонажи смазываются, то по действию и камере дич творится :) Приходилось много раз переделывать ракурсы и композиции и пытаться снова. Еще сильно помогала функция упоминания элементов в Higgsfield для Kling 3.0 и Nano Banana Pro. Там можно создавать массив из изображений разных ракурсов персонажей, окружения и т.п. Апскейл некоторых видео (в частности Seedance 1.5, так как разрешение 720p) делал в Topaz.

Собирал всё в After Effects. Взрыв в конце и "speed lines" на трансформации скачал футажами с Envato. Видосы с трансформацией, кстати, генерил на зеленом фоне, чтобы потом подложить "speed lines" нормально и какие захочу.

Музыку сгенерил в Suno, просто по промпту несколько версий и выбрал самую подходящую для нарезки. Звуковые эффекты и голоса персонажей с Envato взял, плюс бесплатные звуки из 99Sound и Boomlibrary. Сводил в Premier Pro. Закадровый голос по тексту сгенерил в ElevenLabs.

К слову, по времени чистой работы 67 часов вышло, это при том, что сценарий уже в голове был.
По деньгам на нейронки ушло примерно 150$. Подписки Envato и Adobe не учитываю, так как они годовые.

Как вам? :)

Платформы: Higgsfield, Syntx
Генерации изображений: Nano Banana, Seadream, Photoshop
Генерации видео: Kling 3.0, Seedance 1.5
Видео футажи: Envato Elements, Adobe Stock
Музыка: Suno, Envato Elements
Звуковые эффекты и голоса: Envato Elements, 99Sounds Free Sounds, Boomlibrary Free Sounds
Закадровый голос: ElevenLabs
Апскейл: изображения - Clarity, видео - Topaz
Композитинг: After Effects


@cgevent
👍75👎27😁11🔥76
This media is not supported in your browser
VIEW IN TELEGRAM
Фотастудио

Вы будете смеяцца, но у нас новый генератор картинок.

"Phota Studio и Phota API — персонализированную модель генерации и редактирования фотографий, обладающую возможностями флагманских моделей обработки изображений, но учитывающую ваши особенности"

Спойлер: у меня есть подозрение, что это не foundation model, а файнтюн и очень ловкий пайплайн на основе других моделей. Грубо говоря, большой и смышленый воркфлоу в Комфи, внутри которого крутятся разные другие модели, лоры, улучшайзеры. И хотя они называют это "моделью", мое чутье говорит, что это не так. Нет technical report, нет упоминания количества параметров, архитектуры и пр.

Спойлер 2: NSFW отсутствует, жесткие фильтры.

Так что я пока назову это генеративным сервисом, заточенным под решение типичных задач фотографов.

Цитирую: "Многие модели изображений заявляют о сохранении индивидуальности. Но как только вы начинаете работать с ними, это обещание часто нарушается. Изображения могут казаться похожими на вас, но на самом деле это не вы. С Phota вы впервые можете создавать, редактировать и улучшать фотографии, сохраняя при этом свою индивидуальность.

Наша цель – фотография, где реальные люди и реальные моменты имеют наибольшее значение . Мы хотим сделать захватывающие фотографии доступными для всех: помочь вам воссоздать моменты, которые вы хотели бы запечатлеть, с другого ракурса, при лучшем освещении, с более естественной позой или просто так, чтобы все смотрели в камеру и естественно улыбались. И более того, мы стремимся создавать новые фотографии реальных людей, которые по-прежнему будут выглядеть как настоящие фотографии, будь то студийный портрет, другая обстановка или момент, который вам так и не удалось запечатлеть."

Ну то есть, можно менять углы, ракурсы, освещение, позу, мимику, сохраняя консистентность. Тут я снова начинаю думать, что под капотом кроется Nano Banana или Квен.

Главная фишка - они включили в сервис тренировку (очевидно Лор) на ваших фотках.
В интерфейсе в просто загружаете минимум 30 фоток (50 макс) и тренируете свою "персону" (Лору).

У них есть API, поэтому я быстро нашел их на Fal.ai и обнаружил там:
phota test-to-image (нет seed, это зашквар) - $0.09 per 1K image and $0.18 per 4K image. Дорого
phota create-profile - собственно тренировка, на входе пакован фоток
phota edit
phota enhance - просто улучшайзер одной картинки (апскейл, деблюр)

В интерфейсе на сайте есть еще стилизатор, добавлятор (человека в существующую фотку), ракурсопоменятор.

На старте дают 20 кредитов (одна генерация в 4К - 4 кредита)
и 2 subject tokens (один токен на свою Лору\Персону)

За 20 долларов в месяц - 600 кредитов (150 картинок в 4К) и 6 тренировок своих Лор.

Довольно дешево для тренировки и дорого для последующих генераций.

В общем выглядит как сервис на основе Бананы или Квена с упором на нужды фотографов.

Я завтра буду занят, не смогу потестить, но вы можете потестить на бесплатных кредитах.

Интересно, что у него (пока) нет фильтров на селебритис, он сожрал у меня Марго Роби, сказал что нашел face of unknown person - можно делать дипфейки.

В общем у меня ощущение, что весь этот сервис можно соорудить в Комфи с большим количеством нод, но кто ж будет заморачиваться, поэтому сервис может зайти фотографам.

Вердикт: Хорошая обертка, но не своя модель.

https://studio.photalabs.com/

Блог:
https://news.photalabs.com/blog/the-new-photo-experience-starts-here

Фал:
https://fal.ai/models/fal-ai/phota

@cgevent
19👍7👎2
Phota Studio == Nano Banana

Чутье меня не подвело (глаз намётан).

Вгрузил туда фотку Марго Роби и говорю "Сделай Про Фотку"
- Апажалста!

А вот уже Марго смотрит в другую сторону.

Дальше взял оригинальную фотку и генерацию, и попросил Gemini пошукать за Synth ID и проверить, была ли использована Nanо Banana при генерации.

На фотке он не нашел водяного знака, как и положено, и даже нашел автора фотки.
На генерации тут же нашел следы использования Нанабананы.

Так что это обертка вокруг Бананы.

@cgevent
👍28🔥126
This media is not supported in your browser
VIEW IN TELEGRAM
Suno 5.5

Сунчанский обновился и главная фишка - возможность вгружать свой (чужой) голос и ну распевать им пестни.

Народ жалуется, что все застревают на этапе "Verifying your voice"

Ну и мне интересно, неужто они будут\могут распознавать голоса известных исполнителей и отсекать попытки спеть чужим голосом?

Думаю у русскоязычных каверов будет период нового расцвета, вряд ли Суно знает голос Монеточки или Гречки.

А голоса можно натырить из интервью в сети...

@cgevent
44😁15👎2🔥2