дAI потестить!
2.65K subscribers
246 photos
168 videos
4 files
159 links
Ленивые AI инструменты для создания контента
👉 Тут помогут и подскажут @neuralchatik
Download Telegram
Тут @Neurodonu немного в коде Pinokio покопался https://blog.neurodonu.dev/how-is-it-pinokio-ru/, Ну как немного - полностью. Лёгонький постик для красноглазого гика. Рекомендую
🔥132👍1
Сравниваем Flux Kontext с альтернативами.

Итак, сегодня сравниваем:
1. flux-1-kontext-dev
2. omnigen 2
3. hidream e1.1

Задачи:
1. Анфас повернуть в 3/4
2. Сделать pixelart
3. Сделать стройной
4. Изменить цвет банта на синий
5. Разозлить
6. Состарить

Кто победитель сказать не решусь, жду экспертных оценок в комментах.

P.S. Там же 👇👇👇 workflow для комфи. Внутри все со ссылочками на модели.
P.S.S. Кому понравилась очаровашка, взял ее от сюда.
2🔥21❤‍🔥7🍓4😱2
Мне тут в ЛС написали ребята из https://gpuniq.ru. Пилят стартап по аренде GPU. Только стартанули, очень хотят услышать первые отзывы.
Из интересного:
У нас действительно сейчас есть бонус: как и сказал, дадим бесплатно попробовать наш сервис: накинем 1000₽ на баланс каждому за регистрацию. Для этого надо просто отправить мне (@golz29) почту, на которую зарегистрирован аккаунт, и бонус будет начислен.
Кроме того, мы даем х2 при первом пополнении к балансу! То есть если, например, пополняешь на 500₽ - получишь 1000₽.

Выглядит как шанс бесплатно генернуть голую Марго Робби на Wan 2.2☺️☺️.
Сам пока не проверял, кто проверит отпишитесь в комментах, как там с удобствами😊😊.

P.S. Если есть вопросы, @golz29 есть у нас в @neuralchatik
😁6🔥3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Клонируем/генерируем голос на русском без регистрации и смс.

Человек с ником Misha24-10 (дай Бог ему здоровья и красивую жену) дотренировал модель для F5 TTS. Это пока еще не 11Labs, но уже вкусно.

Как попробовать:

1. Ставим Pinokio
2. В Pinokio ставим e2-f5-tts
3. Скачиваем модель в папку pinokio\api\e2-f5-tts.git\cache\HF_HOME\hub\models--SWivid--F5-TTS\snapshots\{какие то цифры}\F5TTS_v1_Base и переименовываем в model_1250000.safetensors
4. ...
5. Profit

Это еще не все. В F5 TTS можно управлять ударением в слове, поставив + перед ударной гласной. Например: "Д+они ид+и сп+ать".
Руками делать долго да и лень, GPT - не спортивно, поэтому другой хороший человек с ником Mikhail (концентрация Михаилов в посте, конечно мое почтение) написал портативку, которая может. Этот Михаил оказался не таким умницей, скрипт сразу не заработал, поэтому пожелаем ему только здоровья, а портативку теперь можно забрать здесь.

P.S. По качеству пока не игровое кино или рекламная читка, но аудио книги озвучивать уже вполне.

P.S.S. Исходник в комментах

#portable
4🍓15😁12👍42🔥2
Делаем липсинк через Multitalk на видео.

Эксклюзивно для @VladPedro

Жду вопросы в комментах👇👇👇

#lipsync
5❤‍🔥8😁6🍓4👍1👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Итак, 3 месяца назад появился Veo3. Пора подвести промежуточные итоги.
Спойлер: это исключительно мой коммерческий опыт — могу ошибаться. Го в комменты спорить и искать истину, ведь «в интернете кто-то не прав».

Правда или вымысел

Imagen и Veo3 — одно и то же? — Вымысел
Промпт, который сработал в Imagen, не даст того же в Veo3: модели разные — разные и результаты. Нужна картинка из Imagen — проще вставить её первым кадром (но захода консистентного персонажа в сцену тогда не добиться).

JSON-формат промпта работает лучшеВымысел
Полезный кейс по сути один: если нужна реплика на русском и Veo3 ругается на язык, добавь «мусорнымые» токенами при помощи JSON.

Gemini умеет писать промпты для Veo3 — Вымысел
Потратил два часа на спор с LLM: сначала она уверяла, что Veo3 понимает русский в промпте без ограничений, а затем упорно заменяла реплики на немые «эмо-жесты», потому что Veo3 не генерирует звук.

Команды в промпте: зафиксируй seed, время шота, тайм-метки и т. п. — Вымысел
Тут на этом мои полномочия всё.

Промптинг с помощью надписей в кадреПравда
Иногда очень выручает. Если перебрали все токены, а действие «не слушается», попробуйте.

Делаем консистентные сцены/персонажа через склейкиПравда
Работает, но после склейки картинка может деградировать — зависит от силы изменений. Например, если подложить первым кадром лицо персонажа и попросить общий план «сидит в кафе, пьёт кофе» — результат часто так себе.
Еще примеры:
https://t.me/aifilmmaker/171
https://t.me/blacktraced/594

Токен no titles отключит титры — Вымысел
Парадоксально, но шанс появления титров растёт.

Особенности модели

Контекст ограничен: чем больше описаний сцены/персонажей/действий, тем сильнее модель «забывает».

Примеры:
— Одна конкретная девушка говорит реплику — ОК.
— Две конкретные девушки ведут диалог — сложнее, но ОК.
— Две девушки + на фоне 6 человек в оранжевых касках копают яму — скорее не ОК, но шанс есть.
— Две девушки: одна достаёт из кармана радугу, другая во время диалога идёт в угол и садится на раковину, а на фоне 6 копают яму — без шансов.

«Примерно» консистентного персонажа можно получить подробным описанием в промпте (как и в других моделях), но у Veo3 это можно делать разным набором токенов. По сути, любого txt2video-персонажа можно скопировать.

Вертикальный контент: можно повернуть исходник в промпте или подложить первым кадром повернутый фрейм — но будьте готовы, что «направление гравитации» для модели это не изменит.

Разницы между моделями Fast и Quality я не заметил.

P.S. Видео - это вам открыточка в WhatsApp. Определенно заслуживает реакции😊😊
117👍7🍓21😁1💯1
Runway Act One у нас дома

Немного удивительно, но незаметно прошел релиз модели Fantasy Portrait для Wan 2.1 (не путать с Fantasy Talking).

Fantasy Portrait - анимирует фото перенося мимику с видео-донора. Такой LivePortrait на максималках (ну или Act One, как хотите).

Впечатлил качеством и тем что умеет анимировать людей, рисованных персонажей и даже животных.

Минусы: если два лица в кадре, может начать анимировать двух, плохо двигает бровями, липсинк хороший но бывает пропускает виземы (возможно, я на вход подал такое себе качество).

Особенности:
1. Не смог изменить выражение лица одного кадра (фото). Ругается что мало кадров, если из фото сделать видео и попробовать поменять мимику, FP сходит с ума и начинает беспорядочно сокращаться.
2. Я добавил в схему контекстное окно, теперь можно делать длинные видео.

WF приложил в комменты👇👇. Угощайтесь.
1👍13😁7🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
Поговорим про денежки?

Задача: хочу такой же ролик, но на нейронках. Это возможно («Я в интернете видел — все такое делают»)? Сколько стоит («5000 р же?») ? Какие сроки («Что там, на кнопку нажать — недолго»)?
Для меня до сих пор это три самых тяжёлых вопроса. Давайте разбираться.

В видео — 22 шота. Есть консистентный персонаж, консистентная одежда. Есть dolly zoom. Закрывающий шот сложный. Оценим общую сложность — выше среднего.

Расходники:

Статика:
Генерим в midjourney.com — 30 $
Переодеть nextry.app — 24,99 $
Тренировка Lora — 6 $
Подправить, доделать Nano banana — 20 $

Анимация:
Берём расход 1 к 5. Напомню: 22 шота. 22×5 = 110 круток. Kling Ultra — 159,99 $

Звук:
SFX 11Labs — 22 $
Музыка Suno — 8 $

Итого по расходникам — 240,98 $ или 19 591 руб. (курс на сегодня)

Работа:

Генерация шота — заложим на генерацию одного шота 3 часа (статика + анимация).
3×22 = 66 часов
Генерация музыки — 4 часа
Генерация SFX — 4 часа
Монтаж — 4 часа

Итого — 78 часов, или примерно 10 рабочих дней.
Здесь, чтобы понять деньги, нужна часовая ставка исполнителя. Скорее всего, если работа заказана одному исполнителю, человек, который разбирается в генерации статики, анимации, музыки, SFX, понимает в монтаже и сведении звука в мастер-треке, стоить дёшево не может. Но, поскольку я живу в мире розовых единорогов, буду считать по низу рынка.
78 часов — это 48 % рабочего месяца. Пусть исполнитель получает среднюю зарплату по России в регионах — 88 981 руб. в месяц. Тогда его работа будет стоить 43 378 руб.

Итого: 63 329 руб.
Получится, что 1 секунда ролика стоит 3 015 р.

Вот какие мы молодцы. Посчитали. Но это минимальная база — ниже её быть просто не может. Теперь считаем допы.

С чем к нам пришёл заказчик. Для работы должны быть ТЗ, раскадровки, рефы. Делает исполнитель — это доп.
Первый результат работы будет через 10 рабочих дней (2 недели). Нужно быстрее — это доп.
Что там с согласованием? Сколько раундов правок? Если больше трёх — это доп.

Теперь — очень спорное утверждение, но с ним становится легче жить. Специальный коэффициент «M» 😂.
Хорошая практика перед проектом — подготовиться и узнать про заказчика чуть больше: пройтись по чёрным спискам в каналах, спросить в чатах. Обратить внимание, с какими материалами пришёл, насколько человек погружён в индустриию, как быстро реагирует на вопросы в переписке. И если внутри срабатывает чуйка, что могут быть проблемы, то компенсировать это коэффициентом «M».
Это не жадность. Думаю, многие залетали в проекты, где ТЗ меняется на ходу, всё нужно «на вчера», а выплат нет, потому что «я не виноват, это клиент не принимает сделанную тобой работу». Вот тут коэффициент «M» — хорошая защита (особенно когда он больше 3 😊😊).

Вот так считаю я. Го в комменты доказывать, что я не прав 😊😊.

P.S. Автор ролика https://www.instagram.com/reel/DNOBjwmIsWV

P.S.S Я кстати сердечек хочу
21122🔥27🍓12❤‍🔥8👍5💯2🥴1💅1🗿1🦄1
Энхансинг кожи за 3 цента и 41 секунду ожидания

Наверное, вы уже знаете, но все же будет полезно.
Ковырялся в Fal.ai и обнаружил, что максимальное разрешение для Seedream можно выставить 4000×4000. Это еще больше приближает нас к генерациям «журнального» качества. Стоит это удовольствие столько же, сколько работа в модели с разрешением по умолчанию (1024×1024) — 3 цента. Этот факт добавил в мою жизнь немного тепла и веры в капитализм 😊😊.

Дальше по классике:

Загружаем фото, пишем промпт:
улучшить качество фото, сделать кожу и волосы более реалистичными и детализированными


P.S. Кстати, и генерация в Seedream возможна в том же разрешении.

P.P.S. Для примеров специально взял девочку из Flux — сами понимаете, что там с кожей.

P.P.P.S. Мужчина — это обладатель гениального слогана «Выступал на выпускном у твоей мамки, выступлю и у тебя» — Дмитрий Маликов по версии Seedream.
212🍓5🔥41