Генератор музыки от Гугла обновился
Lyria 3 Pro теперь может генерить треки до 3 минут, а не 30 секунд, как раньше.
Я проверил, действительно работает в Gemini https://gemini.google.com/ - создай, говорю мне фанка с синкопами.
- А пажалста!
В Гемини работает для платных планов (у меня дешевый Pro)
Зашел в Producer.ai - там тоже работает, генерит треки по 2+ минуты. Там, кстати, обещают доступ и для бесплатных планов.
Почитайте про доступы подробнее тут:
https://blog.google/innovation-and-ai/technology/ai/lyria-3-pro/
Звучит суховато, ни о каком сравнении с Суно речи не идет.
Ну и самое главное - функционал минимальный. Все это - окошко чата с кнопачками и галачками.
После Суно - это как бы игрушка.
Потестируйте звук сами.
Скачивает видосы со статической обложкой какого-то конского размера, по 25 мб.
@cgevent
Lyria 3 Pro теперь может генерить треки до 3 минут, а не 30 секунд, как раньше.
Я проверил, действительно работает в Gemini https://gemini.google.com/ - создай, говорю мне фанка с синкопами.
- А пажалста!
В Гемини работает для платных планов (у меня дешевый Pro)
Зашел в Producer.ai - там тоже работает, генерит треки по 2+ минуты. Там, кстати, обещают доступ и для бесплатных планов.
Почитайте про доступы подробнее тут:
https://blog.google/innovation-and-ai/technology/ai/lyria-3-pro/
Звучит суховато, ни о каком сравнении с Суно речи не идет.
Ну и самое главное - функционал минимальный. Все это - окошко чата с кнопачками и галачками.
После Суно - это как бы игрушка.
Потестируйте звук сами.
Скачивает видосы со статической обложкой какого-то конского размера, по 25 мб.
@cgevent
1👍9❤5😱4😁2
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка
"Реклама автомобиля Torres от KGM"
Авторы: команда Maikers (@shura_mk, @Jason_hightop, @b0nus33)
Ролик делался в рамках участия в 24 часовом оффлайн хакатоне Skillout на площадке Сколково, где 24 команды ИИ креаторов по 3 человека в команде должны были сделать один или несколько рекламных роликов по брифам спонсоров, всего было 3 спонсора:
- 1. Машинка от KGM (он же SsangYong);
- 2. Смеси детского питания от бренда Kabrita;
- 3. Сервис по доставке и выращиванию съедобных цветов для ресторанов Ninja Goods).
Тайминг рекламы должен был быть от 30 секунд до 1 минуты строго. Мы выбрали рекламу машинок от KGM (он же SsangYong), решили уйти от идеи банальной рекламы и сделать что-то эпичное и запоминающееся (в итоге победила всё таки классическая реклама). Идея родилась быстро в течении 1 часа, с помощью естественного интеллекта, придумали показать машинку в экстремальных, апокалиптических условиях, которая спасает жизни в атмосфере полного спокойствия внутри. Время создания ролика примерно 20 часов от идеи до финальной реализации. Сразу решили, что для такой идеи будем использовать единственно возможный вариант, а именно seedance 2.0. Решили, что будет 4 сцены апокалипсиса (по 15 секунд на каждую):
1-ая: погоня от извергающегося вулкана сурового маскулинного мужика;
2-ая: погоня от неистового цунами семьи с ребенком;
3-ая: погоня из города полного зомби пожилой пары с харизматичной бабулей с толикой юмора;
4-ая: объединение всех выживших героев на прекрасных машинах) в лагере для выживших, куда ясное дело смогли приехать только обладатели машин от бренда).
На раскадровку в Банане про ушло порядка 6-8 часов, причем с учетом возможностей делать отличные самостоятельные мультишоты в Seedance 2, делали в основном только ключевые кадры, которые Seedance 2 потом сам разбивал на нужные кадры текстовыми промтами. Следующие 10 часов потратили на множество мультишотных генераций в сидансе, там где сиданс выдавал не достаточно референсный результат по отношению к интерьеру/экстерьеру машинки использовали Kling 3 (в основном крупные планы деталей авто). В итоге получилось примерно 7-8 минут супердинамичного видео, которое потом резали по живому оставляя самый сок.
Саундтрек выбирали пока генерится видео в сидансе. Заремиксили в Suno один из треков к фильму Безумный Макс.
Оставшиеся 2 часа потратили на максимально динамичный монтаж в Кап-кат про.
Совокупный бюджет плюс минус 100 долларов на подписки для 3-х человек в Хиггсе, seedance 2 и действущих во Flow.
Учитывая скорость создания видео, понятное дело без огрех не обошлось. В целом, хоть мы и не победили , хотелось бы узнать мнения на что можно было обратить внимание и сделать лучше.
@cgevent
"Реклама автомобиля Torres от KGM"
Авторы: команда Maikers (@shura_mk, @Jason_hightop, @b0nus33)
Ролик делался в рамках участия в 24 часовом оффлайн хакатоне Skillout на площадке Сколково, где 24 команды ИИ креаторов по 3 человека в команде должны были сделать один или несколько рекламных роликов по брифам спонсоров, всего было 3 спонсора:
- 1. Машинка от KGM (он же SsangYong);
- 2. Смеси детского питания от бренда Kabrita;
- 3. Сервис по доставке и выращиванию съедобных цветов для ресторанов Ninja Goods).
Тайминг рекламы должен был быть от 30 секунд до 1 минуты строго. Мы выбрали рекламу машинок от KGM (он же SsangYong), решили уйти от идеи банальной рекламы и сделать что-то эпичное и запоминающееся (в итоге победила всё таки классическая реклама). Идея родилась быстро в течении 1 часа, с помощью естественного интеллекта, придумали показать машинку в экстремальных, апокалиптических условиях, которая спасает жизни в атмосфере полного спокойствия внутри. Время создания ролика примерно 20 часов от идеи до финальной реализации. Сразу решили, что для такой идеи будем использовать единственно возможный вариант, а именно seedance 2.0. Решили, что будет 4 сцены апокалипсиса (по 15 секунд на каждую):
1-ая: погоня от извергающегося вулкана сурового маскулинного мужика;
2-ая: погоня от неистового цунами семьи с ребенком;
3-ая: погоня из города полного зомби пожилой пары с харизматичной бабулей с толикой юмора;
4-ая: объединение всех выживших героев на прекрасных машинах) в лагере для выживших, куда ясное дело смогли приехать только обладатели машин от бренда).
На раскадровку в Банане про ушло порядка 6-8 часов, причем с учетом возможностей делать отличные самостоятельные мультишоты в Seedance 2, делали в основном только ключевые кадры, которые Seedance 2 потом сам разбивал на нужные кадры текстовыми промтами. Следующие 10 часов потратили на множество мультишотных генераций в сидансе, там где сиданс выдавал не достаточно референсный результат по отношению к интерьеру/экстерьеру машинки использовали Kling 3 (в основном крупные планы деталей авто). В итоге получилось примерно 7-8 минут супердинамичного видео, которое потом резали по живому оставляя самый сок.
Саундтрек выбирали пока генерится видео в сидансе. Заремиксили в Suno один из треков к фильму Безумный Макс.
Оставшиеся 2 часа потратили на максимально динамичный монтаж в Кап-кат про.
Совокупный бюджет плюс минус 100 долларов на подписки для 3-х человек в Хиггсе, seedance 2 и действущих во Flow.
Учитывая скорость создания видео, понятное дело без огрех не обошлось. В целом, хоть мы и не победили , хотелось бы узнать мнения на что можно было обратить внимание и сделать лучше.
@cgevent
2🔥45👎38👍20❤15😁12
Промпты типа "ты эксперт"
Иногда помогают, иногда мешают.
Интересный пост на эту тему:
https://www.linkedin.com/posts/ekiledjian_expert-personas-improve-llm-alignment-but-activity-7442170166022397952-ChNb/
Перевел его почти целиком.
Новое исследование Университета Южной Калифорнии («Экспертные персоны улучшают согласование с языковыми моделями, но ухудшают точность») протестировало экспертные подсказки для создания персон в шести крупных языковых моделях и, наконец, объясняет, почему сообщество получило такие противоречивые результаты.
Вывод прост, но важен: подсказки для создания персон — это инструмент согласования(alignment), а не инструмент получения знаний.
Когда персоны ПОМОГАЮТ:
→ Тон и стиль письма (оценки выросли с 7/10 до 9/10 при составлении профессиональных электронных писем)
→ Безопасность и отказ (устойчивость к взлому улучшилась до 17,7%)
→ Соблюдение формата, структурированный вывод и следование намерениям
→ Более длинные и подробные описания персон усиливают эти преимущества
Когда персоны ВРЕДЯТ:
→ Фактическая точность и поиск знаний (точность снизилась с 71,6% до 68,0%)
→ Математические и логические рассуждения (один пример ухудшился с 9/10 до 1,5/10)
→ Задачи программирования, требующие точного запоминания
→ Более длинные описания персон усугубляют ситуацию
Пять вещей, которые вы можете сделать прямо сейчас:
1. Используйте персоны для творческих, редакционных и задач, требующих соблюдения требований. Откажитесь от них для поиска фактов, вычислений и логики кода.
2. Размещайте описания персон в системном запросе, а не в сообщении пользователя — это важно для хорошо оптимизированных моделей.
3. Если вы используете модели рассуждений (например, DeepSeek R1), полностью откажитесь от использования экспертных персон. Исследования показывают, что случайная персона работает так же хорошо — модель выигрывает только от увеличения контекстной длины, а не от экспертных знаний.
4. Для повышения уровня безопасности одним из самых дешевых и эффективных способов является использование специальной "safety monitor" persona в системном запросе.
5. Когда вам необходимо использовать персону в работе, требующей высокой точности, делайте ее как можно короче, чтобы минимизировать помехи при запоминании фактов.
Итог: рассматривайте подсказки с описанием персон как усилитель тона и согласованности, а не как средство повышения уровня знаний. Знание того, когда их использовать, а когда убирать, является реальным конкурентным преимуществом.
@cgevent
Иногда помогают, иногда мешают.
Интересный пост на эту тему:
https://www.linkedin.com/posts/ekiledjian_expert-personas-improve-llm-alignment-but-activity-7442170166022397952-ChNb/
Перевел его почти целиком.
Новое исследование Университета Южной Калифорнии («Экспертные персоны улучшают согласование с языковыми моделями, но ухудшают точность») протестировало экспертные подсказки для создания персон в шести крупных языковых моделях и, наконец, объясняет, почему сообщество получило такие противоречивые результаты.
Вывод прост, но важен: подсказки для создания персон — это инструмент согласования(alignment), а не инструмент получения знаний.
Когда персоны ПОМОГАЮТ:
→ Тон и стиль письма (оценки выросли с 7/10 до 9/10 при составлении профессиональных электронных писем)
→ Безопасность и отказ (устойчивость к взлому улучшилась до 17,7%)
→ Соблюдение формата, структурированный вывод и следование намерениям
→ Более длинные и подробные описания персон усиливают эти преимущества
Когда персоны ВРЕДЯТ:
→ Фактическая точность и поиск знаний (точность снизилась с 71,6% до 68,0%)
→ Математические и логические рассуждения (один пример ухудшился с 9/10 до 1,5/10)
→ Задачи программирования, требующие точного запоминания
→ Более длинные описания персон усугубляют ситуацию
Пять вещей, которые вы можете сделать прямо сейчас:
1. Используйте персоны для творческих, редакционных и задач, требующих соблюдения требований. Откажитесь от них для поиска фактов, вычислений и логики кода.
2. Размещайте описания персон в системном запросе, а не в сообщении пользователя — это важно для хорошо оптимизированных моделей.
3. Если вы используете модели рассуждений (например, DeepSeek R1), полностью откажитесь от использования экспертных персон. Исследования показывают, что случайная персона работает так же хорошо — модель выигрывает только от увеличения контекстной длины, а не от экспертных знаний.
4. Для повышения уровня безопасности одним из самых дешевых и эффективных способов является использование специальной "safety monitor" persona в системном запросе.
5. Когда вам необходимо использовать персону в работе, требующей высокой точности, делайте ее как можно короче, чтобы минимизировать помехи при запоминании фактов.
Итог: рассматривайте подсказки с описанием персон как усилитель тона и согласованности, а не как средство повышения уровня знаний. Знание того, когда их использовать, а когда убирать, является реальным конкурентным преимуществом.
@cgevent
4👍34❤8🔥2😁2😱1
Гигантский датасет трехмерных голов.
Взяли и отсканировали 7547 человек, причем каждого с 11 выражениями лица ( счастье, печаль, гнев, удивление, страх, отвращение)
А дальше тщательно все отретопили и привели к двум топологиям на 200К и 7М полигонов для ВСЕХ лиц. Топологии между собой СОВПАДАЮТ, то есть можно их морфить между собой, как по эмоциям, так и по собственно людям. И получать бесконечное количество новых тварей.
Поглядите на сайт:
https://www.sp-6m.com/
Почитайте цифры.
Помимо 3Д, может пригодится для тренировки нейронок на синтетических лицах и распознавания эмоций.
Ничего скачать нельзя, за лицензированием и использованием надо обращаться в авторам проекта. Координаты на сайте.
Впечатляющий труд.
@cgevent
Взяли и отсканировали 7547 человек, причем каждого с 11 выражениями лица ( счастье, печаль, гнев, удивление, страх, отвращение)
А дальше тщательно все отретопили и привели к двум топологиям на 200К и 7М полигонов для ВСЕХ лиц. Топологии между собой СОВПАДАЮТ, то есть можно их морфить между собой, как по эмоциям, так и по собственно людям. И получать бесконечное количество новых тварей.
Поглядите на сайт:
https://www.sp-6m.com/
Почитайте цифры.
Помимо 3Д, может пригодится для тренировки нейронок на синтетических лицах и распознавания эмоций.
Ничего скачать нельзя, за лицензированием и использованием надо обращаться в авторам проекта. Координаты на сайте.
Впечатляющий труд.
@cgevent
2🔥63😱16❤9👍1
Dynamic VRAM: гики, обновите ComfyUI
Туда завезли оптимизацию VRAM и RAM. Меньше требования к памяти.
"Функция Dynamic VRAM кардинально меняет подход ComfyUI к обработке весов моделей, что значительно повышает плавность работы для пользователей, использующих оборудование с ограниченным объемом памяти"
https://blog.comfy.org/p/dynamic-vram-in-comfyui-saving-local
@cgevent
Туда завезли оптимизацию VRAM и RAM. Меньше требования к памяти.
"Функция Dynamic VRAM кардинально меняет подход ComfyUI к обработке весов моделей, что значительно повышает плавность работы для пользователей, использующих оборудование с ограниченным объемом памяти"
https://blog.comfy.org/p/dynamic-vram-in-comfyui-saving-local
@cgevent
blog.comfy.org
Dynamic VRAM in ComfyUI: Saving Local Models from RAMmageddon
A new memory system that makes it possible to efficiently run the largest models on the smallest memory.
2🔥43😱6❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Вайб-метаверсинг
Новый и очень интересный проект от Гугла:
Vibe Coding XR: Accelerating AI + XR prototyping with XR Blocks and Gemini
Можно еще сказать - вайб-прототайпинг или вайб-3Дсборка
Речь идет о быстрой разработке приложений дополненной и виртуальной реальности (XR\VR), который позволяет превращать идеи в рабочие прототипы менее чем за минуту.
Ну и правда, обычные приложения уже вайб-кодят, можно взяться за пространственные интерфейсы.
Что внутри:
Связка Gemini + XR Blocks: Gemini выступает в роли эксперта-дизайнера и инженера, понимая пространственную логику.
XR Blocks - это open-source фреймворк на базе WebXR, который берет на себя сложные задачи: физику, распознавание окружения и взаимодействие рук.
Как это работает:
Пользователь описывает желаемое (голосом или текстом, например: «Создай интерактивную лабораторию физики»), и система за 60 секунд генерирует полностью функциональное приложение для Android XR или настольного браузера (в симуляторе).
Обязательно посмотрите примеры по ссылке внизу, вайб-метаверс как он есть.
Google показывает, что такой подход подходит не только для демо, но и для образовательных сценариев. Среди примеров — XR-приложения для геометрии, физики, химии и даже визуализации идеи кота Шрёдингера. По сути, компания продвигает будущее, в котором создание пространственных интерфейсов и учебных XR-опытов станет таким же быстрым и доступным, как сегодня генерация обычных веб-прототипов с ИИ наперевес.
https://research.google/blog/vibe-coding-xr-accelerating-ai-xr-prototyping-with-xr-blocks-and-gemini/
https://github.com/google/xrblocks
Демо: https://xrblocks.github.io/docs/samples/ModelViewer/
https://www.youtube.com/watch?v=nknCzIxHHzw
@cgevent
Новый и очень интересный проект от Гугла:
Vibe Coding XR: Accelerating AI + XR prototyping with XR Blocks and Gemini
Можно еще сказать - вайб-прототайпинг или вайб-3Дсборка
Речь идет о быстрой разработке приложений дополненной и виртуальной реальности (XR\VR), который позволяет превращать идеи в рабочие прототипы менее чем за минуту.
Ну и правда, обычные приложения уже вайб-кодят, можно взяться за пространственные интерфейсы.
Что внутри:
Связка Gemini + XR Blocks: Gemini выступает в роли эксперта-дизайнера и инженера, понимая пространственную логику.
XR Blocks - это open-source фреймворк на базе WebXR, который берет на себя сложные задачи: физику, распознавание окружения и взаимодействие рук.
Как это работает:
Пользователь описывает желаемое (голосом или текстом, например: «Создай интерактивную лабораторию физики»), и система за 60 секунд генерирует полностью функциональное приложение для Android XR или настольного браузера (в симуляторе).
Обязательно посмотрите примеры по ссылке внизу, вайб-метаверс как он есть.
Google показывает, что такой подход подходит не только для демо, но и для образовательных сценариев. Среди примеров — XR-приложения для геометрии, физики, химии и даже визуализации идеи кота Шрёдингера. По сути, компания продвигает будущее, в котором создание пространственных интерфейсов и учебных XR-опытов станет таким же быстрым и доступным, как сегодня генерация обычных веб-прототипов с ИИ наперевес.
https://research.google/blog/vibe-coding-xr-accelerating-ai-xr-prototyping-with-xr-blocks-and-gemini/
https://github.com/google/xrblocks
Демо: https://xrblocks.github.io/docs/samples/ModelViewer/
https://www.youtube.com/watch?v=nknCzIxHHzw
@cgevent
👍28❤7👎4😱1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Runway Multi-Shot App
Все без исключения ролики выше сделаны по довольно простым и недлинным промптам.
Без всякого
"Камера1 - бежим
Камера2 - лежим
Камера3 - мешки ворочаем"
Ну то есть ИИ за вас делает мульти-ракурсы и сам решает, где порезать и куда поставить камеру и какой план взять: крупняк, погрудный или общий.
Мне нравится результат, но не нравится замысел. Юзеры, которые и так ни хрена не смыслят в монтаже, вконец потеряют мотивацию что-то изучать. И будут у нас Нейропрожарки по шаблонам Рунвея (и всех, кто это срочно скопирует).
Видео - это 95% монтаж. И он сложный, мать его.
Раскатывают тут:
https://app.runwayml.com/video-tools/teams/cgevent/ai-tools/generate?mode=apps
Если интересный промпты к видосам выше, то они тут:
https://x.com/runwayml/status/2037170118669500537
Лев, конечно, нарядный вышел:
@cgevent
Все без исключения ролики выше сделаны по довольно простым и недлинным промптам.
Без всякого
"Камера1 - бежим
Камера2 - лежим
Камера3 - мешки ворочаем"
Ну то есть ИИ за вас делает мульти-ракурсы и сам решает, где порезать и куда поставить камеру и какой план взять: крупняк, погрудный или общий.
Мне нравится результат, но не нравится замысел. Юзеры, которые и так ни хрена не смыслят в монтаже, вконец потеряют мотивацию что-то изучать. И будут у нас Нейропрожарки по шаблонам Рунвея (и всех, кто это срочно скопирует).
Видео - это 95% монтаж. И он сложный, мать его.
Раскатывают тут:
https://app.runwayml.com/video-tools/teams/cgevent/ai-tools/generate?mode=apps
Если интересный промпты к видосам выше, то они тут:
https://x.com/runwayml/status/2037170118669500537
Лев, конечно, нарядный вышел:
A hyper realistic lion lying on a therapist couch, talking about how hard it is for him to eat the cutest animals. Why not snakes? Why not spiders? No… it has to be zebras. God damn.
@cgevent
👍31🔥19❤6
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка
ROCKY
Автор: Сергей Титов. 3D/2D Motion Designer Generalist, DJ. @no_limit_to_the_infinite
Не устоял и сделал рекламный ролик с помощью ИИ.
У меня еще 3 года назад была идея рекламы охранной системы для дома.
Но не решался, так как понимал, что в полноценном 3D я его один делать буду месяца полтора, не меньше.
Где в потоке работы найти это время? :)
И тут думаю, а че бы не попробовать его с помощью нейронок сделать? Ведь регулярно их в работе использую. Заодно прикину, сколько это стоит и сколько времени.
Работал на платформах Higgsfield и Syntx. Я не спец в промптах, поэтому почти во всех случаях искал или собирал в Photoshop подходящие референсы по композиции и ракурсу. Потом генерировал ключевые кадры в Nano Banana Pro и Seedream 5 Lite. Апскейлил изображения в Clarity, если качество терялось при перегенерациях. А иногда пересобирал шот в Photoshop из нескольких итераций, чтобы первоначальное качество изображения оставить. В Photoshop еще хорошо убирать лишние элементы с помощью "Generative Fill".
Видео генерил почти везде в Kling 3.0 по начальному и конечному фрейму. В некоторых местах Seedream 1.5, она очень хорошо справилась со сценой трансформации меха из шара. Экшн сцены ооооочень трудно давались: то персонажи смазываются, то по действию и камере дич творится :) Приходилось много раз переделывать ракурсы и композиции и пытаться снова. Еще сильно помогала функция упоминания элементов в Higgsfield для Kling 3.0 и Nano Banana Pro. Там можно создавать массив из изображений разных ракурсов персонажей, окружения и т.п. Апскейл некоторых видео (в частности Seedance 1.5, так как разрешение 720p) делал в Topaz.
Собирал всё в After Effects. Взрыв в конце и "speed lines" на трансформации скачал футажами с Envato. Видосы с трансформацией, кстати, генерил на зеленом фоне, чтобы потом подложить "speed lines" нормально и какие захочу.
Музыку сгенерил в Suno, просто по промпту несколько версий и выбрал самую подходящую для нарезки. Звуковые эффекты и голоса персонажей с Envato взял, плюс бесплатные звуки из 99Sound и Boomlibrary. Сводил в Premier Pro. Закадровый голос по тексту сгенерил в ElevenLabs.
К слову, по времени чистой работы 67 часов вышло, это при том, что сценарий уже в голове был.
По деньгам на нейронки ушло примерно 150$. Подписки Envato и Adobe не учитываю, так как они годовые.
Как вам? :)
Платформы: Higgsfield, Syntx
Генерации изображений: Nano Banana, Seadream, Photoshop
Генерации видео: Kling 3.0, Seedance 1.5
Видео футажи: Envato Elements, Adobe Stock
Музыка: Suno, Envato Elements
Звуковые эффекты и голоса: Envato Elements, 99Sounds Free Sounds, Boomlibrary Free Sounds
Закадровый голос: ElevenLabs
Апскейл: изображения - Clarity, видео - Topaz
Композитинг: After Effects
@cgevent
ROCKY
Автор: Сергей Титов. 3D/2D Motion Designer Generalist, DJ. @no_limit_to_the_infinite
Не устоял и сделал рекламный ролик с помощью ИИ.
У меня еще 3 года назад была идея рекламы охранной системы для дома.
Но не решался, так как понимал, что в полноценном 3D я его один делать буду месяца полтора, не меньше.
Где в потоке работы найти это время? :)
И тут думаю, а че бы не попробовать его с помощью нейронок сделать? Ведь регулярно их в работе использую. Заодно прикину, сколько это стоит и сколько времени.
Работал на платформах Higgsfield и Syntx. Я не спец в промптах, поэтому почти во всех случаях искал или собирал в Photoshop подходящие референсы по композиции и ракурсу. Потом генерировал ключевые кадры в Nano Banana Pro и Seedream 5 Lite. Апскейлил изображения в Clarity, если качество терялось при перегенерациях. А иногда пересобирал шот в Photoshop из нескольких итераций, чтобы первоначальное качество изображения оставить. В Photoshop еще хорошо убирать лишние элементы с помощью "Generative Fill".
Видео генерил почти везде в Kling 3.0 по начальному и конечному фрейму. В некоторых местах Seedream 1.5, она очень хорошо справилась со сценой трансформации меха из шара. Экшн сцены ооооочень трудно давались: то персонажи смазываются, то по действию и камере дич творится :) Приходилось много раз переделывать ракурсы и композиции и пытаться снова. Еще сильно помогала функция упоминания элементов в Higgsfield для Kling 3.0 и Nano Banana Pro. Там можно создавать массив из изображений разных ракурсов персонажей, окружения и т.п. Апскейл некоторых видео (в частности Seedance 1.5, так как разрешение 720p) делал в Topaz.
Собирал всё в After Effects. Взрыв в конце и "speed lines" на трансформации скачал футажами с Envato. Видосы с трансформацией, кстати, генерил на зеленом фоне, чтобы потом подложить "speed lines" нормально и какие захочу.
Музыку сгенерил в Suno, просто по промпту несколько версий и выбрал самую подходящую для нарезки. Звуковые эффекты и голоса персонажей с Envato взял, плюс бесплатные звуки из 99Sound и Boomlibrary. Сводил в Premier Pro. Закадровый голос по тексту сгенерил в ElevenLabs.
К слову, по времени чистой работы 67 часов вышло, это при том, что сценарий уже в голове был.
По деньгам на нейронки ушло примерно 150$. Подписки Envato и Adobe не учитываю, так как они годовые.
Как вам? :)
Платформы: Higgsfield, Syntx
Генерации изображений: Nano Banana, Seadream, Photoshop
Генерации видео: Kling 3.0, Seedance 1.5
Видео футажи: Envato Elements, Adobe Stock
Музыка: Suno, Envato Elements
Звуковые эффекты и голоса: Envato Elements, 99Sounds Free Sounds, Boomlibrary Free Sounds
Закадровый голос: ElevenLabs
Апскейл: изображения - Clarity, видео - Topaz
Композитинг: After Effects
@cgevent
👍75👎27😁11🔥7❤6
This media is not supported in your browser
VIEW IN TELEGRAM
Фотастудио
Вы будете смеяцца, но у нас новый генератор картинок.
"Phota Studio и Phota API — персонализированную модель генерации и редактирования фотографий, обладающую возможностями флагманских моделей обработки изображений, но учитывающую ваши особенности"
Спойлер: у меня есть подозрение, что это не foundation model, а файнтюн и очень ловкий пайплайн на основе других моделей. Грубо говоря, большой и смышленый воркфлоу в Комфи, внутри которого крутятся разные другие модели, лоры, улучшайзеры. И хотя они называют это "моделью", мое чутье говорит, что это не так. Нет technical report, нет упоминания количества параметров, архитектуры и пр.
Спойлер 2: NSFW отсутствует, жесткие фильтры.
Так что я пока назову это генеративным сервисом, заточенным под решение типичных задач фотографов.
Цитирую: "Многие модели изображений заявляют о сохранении индивидуальности. Но как только вы начинаете работать с ними, это обещание часто нарушается. Изображения могут казаться похожими на вас, но на самом деле это не вы. С Phota вы впервые можете создавать, редактировать и улучшать фотографии, сохраняя при этом свою индивидуальность.
Наша цель – фотография, где реальные люди и реальные моменты имеют наибольшее значение . Мы хотим сделать захватывающие фотографии доступными для всех: помочь вам воссоздать моменты, которые вы хотели бы запечатлеть, с другого ракурса, при лучшем освещении, с более естественной позой или просто так, чтобы все смотрели в камеру и естественно улыбались. И более того, мы стремимся создавать новые фотографии реальных людей, которые по-прежнему будут выглядеть как настоящие фотографии, будь то студийный портрет, другая обстановка или момент, который вам так и не удалось запечатлеть."
Ну то есть, можно менять углы, ракурсы, освещение, позу, мимику, сохраняя консистентность. Тут я снова начинаю думать, что под капотом кроется Nano Banana или Квен.
Главная фишка - они включили в сервис тренировку (очевидно Лор) на ваших фотках.
В интерфейсе в просто загружаете минимум 30 фоток (50 макс) и тренируете свою "персону" (Лору).
У них есть API, поэтому я быстро нашел их на Fal.ai и обнаружил там:
phota test-to-image (нет seed, это зашквар) - $0.09 per 1K image and $0.18 per 4K image. Дорого
phota create-profile - собственно тренировка, на входе пакован фоток
phota edit
phota enhance - просто улучшайзер одной картинки (апскейл, деблюр)
В интерфейсе на сайте есть еще стилизатор, добавлятор (человека в существующую фотку), ракурсопоменятор.
На старте дают 20 кредитов (одна генерация в 4К - 4 кредита)
и 2 subject tokens (один токен на свою Лору\Персону)
За 20 долларов в месяц - 600 кредитов (150 картинок в 4К) и 6 тренировок своих Лор.
Довольно дешево для тренировки и дорого для последующих генераций.
В общем выглядит как сервис на основе Бананы или Квена с упором на нужды фотографов.
Я завтра буду занят, не смогу потестить, но вы можете потестить на бесплатных кредитах.
Интересно, что у него (пока) нет фильтров на селебритис, он сожрал у меня Марго Роби, сказал что нашел face of unknown person - можно делать дипфейки.
В общем у меня ощущение, что весь этот сервис можно соорудить в Комфи с большим количеством нод, но кто ж будет заморачиваться, поэтому сервис может зайти фотографам.
Вердикт: Хорошая обертка, но не своя модель.
https://studio.photalabs.com/
Блог:
https://news.photalabs.com/blog/the-new-photo-experience-starts-here
Фал:
https://fal.ai/models/fal-ai/phota
@cgevent
Вы будете смеяцца, но у нас новый генератор картинок.
"Phota Studio и Phota API — персонализированную модель генерации и редактирования фотографий, обладающую возможностями флагманских моделей обработки изображений, но учитывающую ваши особенности"
Спойлер: у меня есть подозрение, что это не foundation model, а файнтюн и очень ловкий пайплайн на основе других моделей. Грубо говоря, большой и смышленый воркфлоу в Комфи, внутри которого крутятся разные другие модели, лоры, улучшайзеры. И хотя они называют это "моделью", мое чутье говорит, что это не так. Нет technical report, нет упоминания количества параметров, архитектуры и пр.
Спойлер 2: NSFW отсутствует, жесткие фильтры.
Так что я пока назову это генеративным сервисом, заточенным под решение типичных задач фотографов.
Цитирую: "Многие модели изображений заявляют о сохранении индивидуальности. Но как только вы начинаете работать с ними, это обещание часто нарушается. Изображения могут казаться похожими на вас, но на самом деле это не вы. С Phota вы впервые можете создавать, редактировать и улучшать фотографии, сохраняя при этом свою индивидуальность.
Наша цель – фотография, где реальные люди и реальные моменты имеют наибольшее значение . Мы хотим сделать захватывающие фотографии доступными для всех: помочь вам воссоздать моменты, которые вы хотели бы запечатлеть, с другого ракурса, при лучшем освещении, с более естественной позой или просто так, чтобы все смотрели в камеру и естественно улыбались. И более того, мы стремимся создавать новые фотографии реальных людей, которые по-прежнему будут выглядеть как настоящие фотографии, будь то студийный портрет, другая обстановка или момент, который вам так и не удалось запечатлеть."
Ну то есть, можно менять углы, ракурсы, освещение, позу, мимику, сохраняя консистентность. Тут я снова начинаю думать, что под капотом кроется Nano Banana или Квен.
Главная фишка - они включили в сервис тренировку (очевидно Лор) на ваших фотках.
В интерфейсе в просто загружаете минимум 30 фоток (50 макс) и тренируете свою "персону" (Лору).
У них есть API, поэтому я быстро нашел их на Fal.ai и обнаружил там:
phota test-to-image (нет seed, это зашквар) - $0.09 per 1K image and $0.18 per 4K image. Дорого
phota create-profile - собственно тренировка, на входе пакован фоток
phota edit
phota enhance - просто улучшайзер одной картинки (апскейл, деблюр)
В интерфейсе на сайте есть еще стилизатор, добавлятор (человека в существующую фотку), ракурсопоменятор.
На старте дают 20 кредитов (одна генерация в 4К - 4 кредита)
и 2 subject tokens (один токен на свою Лору\Персону)
За 20 долларов в месяц - 600 кредитов (150 картинок в 4К) и 6 тренировок своих Лор.
Довольно дешево для тренировки и дорого для последующих генераций.
В общем выглядит как сервис на основе Бананы или Квена с упором на нужды фотографов.
Я завтра буду занят, не смогу потестить, но вы можете потестить на бесплатных кредитах.
Интересно, что у него (пока) нет фильтров на селебритис, он сожрал у меня Марго Роби, сказал что нашел face of unknown person - можно делать дипфейки.
В общем у меня ощущение, что весь этот сервис можно соорудить в Комфи с большим количеством нод, но кто ж будет заморачиваться, поэтому сервис может зайти фотографам.
Вердикт: Хорошая обертка, но не своя модель.
https://studio.photalabs.com/
Блог:
https://news.photalabs.com/blog/the-new-photo-experience-starts-here
Фал:
https://fal.ai/models/fal-ai/phota
@cgevent
1❤9👍7👎2
Phota Studio == Nano Banana
Чутье меня не подвело (глаз намётан).
Вгрузил туда фотку Марго Роби и говорю "Сделай Про Фотку"
- Апажалста!
А вот уже Марго смотрит в другую сторону.
Дальше взял оригинальную фотку и генерацию, и попросил Gemini пошукать за Synth ID и проверить, была ли использована Nanо Banana при генерации.
На фотке он не нашел водяного знака, как и положено, и даже нашел автора фотки.
На генерации тут же нашел следы использования Нанабананы.
Так что это обертка вокруг Бананы.
@cgevent
Чутье меня не подвело (глаз намётан).
Вгрузил туда фотку Марго Роби и говорю "Сделай Про Фотку"
- Апажалста!
А вот уже Марго смотрит в другую сторону.
Дальше взял оригинальную фотку и генерацию, и попросил Gemini пошукать за Synth ID и проверить, была ли использована Nanо Banana при генерации.
На фотке он не нашел водяного знака, как и положено, и даже нашел автора фотки.
На генерации тут же нашел следы использования Нанабананы.
Так что это обертка вокруг Бананы.
@cgevent
👍28🔥12❤6
This media is not supported in your browser
VIEW IN TELEGRAM
Suno 5.5
Сунчанский обновился и главная фишка - возможность вгружать свой (чужой) голос и ну распевать им пестни.
Народ жалуется, что все застревают на этапе "Verifying your voice"
Ну и мне интересно, неужто они будут\могут распознавать голоса известных исполнителей и отсекать попытки спеть чужим голосом?
Думаю у русскоязычных каверов будет период нового расцвета, вряд ли Суно знает голос Монеточки или Гречки.
А голоса можно натырить из интервью в сети...
@cgevent
Сунчанский обновился и главная фишка - возможность вгружать свой (чужой) голос и ну распевать им пестни.
Народ жалуется, что все застревают на этапе "Verifying your voice"
Ну и мне интересно, неужто они будут\могут распознавать голоса известных исполнителей и отсекать попытки спеть чужим голосом?
Думаю у русскоязычных каверов будет период нового расцвета, вряд ли Суно знает голос Монеточки или Гречки.
А голоса можно натырить из интервью в сети...
@cgevent
❤44😁15👎2🔥2