дAI потестить!

Сравниваем Flux Kontext с альтернативами.

Итак, сегодня сравниваем:
1. flux-1-kontext-dev
2. omnigen 2
3. hidream e1.1

Задачи:
1. Анфас повернуть в 3/4
2. Сделать pixelart
3. Сделать стройной
4. Изменить цвет банта на синий
5. Разозлить
6. Состарить

Кто победитель сказать не решусь, жду экспертных оценок в комментах.

P.S. Там же 👇👇👇 workflow для комфи. Внутри все со ссылочками на модели.
P.S.S. Кому понравилась очаровашка, взял ее от сюда.

2🔥21❤‍🔥7🍓4😱2

3.05K views07:52

GPUniq - GPU Rental Service | AI Computing & Machine Learning

Мне тут в ЛС написали ребята из https://gpuniq.ru. Пилят стартап по аренде GPU. Только стартанули, очень хотят услышать первые отзывы.
Из интересного:

У нас действительно сейчас есть бонус: как и сказал, дадим бесплатно попробовать наш сервис: накинем 1000₽ на баланс каждому за регистрацию. Для этого надо просто отправить мне (@golz29) почту, на которую зарегистрирован аккаунт, и бонус будет начислен.
Кроме того, мы даем х2 при первом пополнении к балансу! То есть если, например, пополняешь на 500₽ - получишь 1000₽.

Выглядит как шанс бесплатно генернуть голую Марго Робби на Wan 2.2☺️☺️.
Сам пока не проверял, кто проверит отпишитесь в комментах, как там с удобствами😊😊.

P.S. Если есть вопросы, @golz29 есть у нас в @neuralchatik

GPUniq

Rent powerful GPUs for AI computing, machine learning, rendering, and crypto mining. Affordable prices, high performance.

😁6🔥3👎1

2.51K viewsedited 10:55

0:07

Клонируем/генерируем голос на русском без регистрации и смс.

Человек с ником Misha24-10 (дай Бог ему здоровья и красивую жену) дотренировал модель для F5 TTS. Это пока еще не 11Labs, но уже вкусно.

Как попробовать:
1. Ставим Pinokio
2. В Pinokio ставим e2-f5-tts
3. Скачиваем модель в папку pinokio\api\e2-f5-tts.git\cache\HF_HOME\hub\models--SWivid--F5-TTS\snapshots\{какие то цифры}\F5TTS_v1_Base и переименовываем в model_1250000.safetensors
4. ...
5. Profit

Это еще не все. В F5 TTS можно управлять ударением в слове, поставив + перед ударной гласной. Например: "Д+они ид+и сп+ать".
Руками делать долго да и лень, GPT - не спортивно, поэтому другой хороший человек с ником Mikhail (концентрация Михаилов в посте, конечно мое почтение) написал портативку, которая может. Этот Михаил оказался не таким умницей, скрипт сразу не заработал, поэтому пожелаем ему только здоровья, а портативку теперь можно забрать здесь.

P.S. По качеству пока не игровое кино или рекламная читка, но аудио книги озвучивать уже вполне.

P.S.S. Исходник в комментах

#portable

4🍓15😁12👍4❤2🔥2

3.54K viewsedited 21:42

0:38

0:04

0:04

Делаем липсинк через Multitalk на видео.

Эксклюзивно для @VladPedro

Жду вопросы в комментах👇👇👇

#lipsync

5❤‍🔥8😁6🍓4👍1👎1

5.41K views12:34

Итак, 3 месяца назад появился Veo3. Пора подвести промежуточные итоги.
Спойлер: это исключительно мой коммерческий опыт — могу ошибаться. Го в комменты спорить и искать истину, ведь «в интернете кто-то не прав».

Правда или вымысел

Imagen и Veo3 — одно и то же? — Вымысел
Промпт, который сработал в Imagen, не даст того же в Veo3: модели разные — разные и результаты. Нужна картинка из Imagen — проще вставить её первым кадром (но захода консистентного персонажа в сцену тогда не добиться).

JSON-формат промпта работает лучше — Вымысел
Полезный кейс по сути один: если нужна реплика на русском и Veo3 ругается на язык, добавь «мусорнымые» токенами при помощи JSON.

Gemini умеет писать промпты для Veo3 — Вымысел
Потратил два часа на спор с LLM: сначала она уверяла, что Veo3 понимает русский в промпте без ограничений, а затем упорно заменяла реплики на немые «эмо-жесты», потому что Veo3 не генерирует звук.

Команды в промпте: зафиксируй seed, время шота, тайм-метки и т. п. — Вымысел
Тут на этом мои полномочия всё.

Промптинг с помощью надписей в кадре — Правда
Иногда очень выручает. Если перебрали все токены, а действие «не слушается», попробуйте.

Делаем консистентные сцены/персонажа через склейки — Правда
Работает, но после склейки картинка может деградировать — зависит от силы изменений. Например, если подложить первым кадром лицо персонажа и попросить общий план «сидит в кафе, пьёт кофе» — результат часто так себе.
Еще примеры:
https://t.me/aifilmmaker/171
https://t.me/blacktraced/594

Токен no titles отключит титры — Вымысел
Парадоксально, но шанс появления титров растёт.

Особенности модели

Контекст ограничен: чем больше описаний сцены/персонажей/действий, тем сильнее модель «забывает».

Примеры:
— Одна конкретная девушка говорит реплику — ОК.
— Две конкретные девушки ведут диалог — сложнее, но ОК.
— Две девушки + на фоне 6 человек в оранжевых касках копают яму — скорее не ОК, но шанс есть.
— Две девушки: одна достаёт из кармана радугу, другая во время диалога идёт в угол и садится на раковину, а на фоне 6 копают яму — без шансов.

«Примерно» консистентного персонажа можно получить подробным описанием в промпте (как и в других моделях), но у Veo3 это можно делать разным набором токенов. По сути, любого txt2video-персонажа можно скопировать.

Вертикальный контент: можно повернуть исходник в промпте или подложить первым кадром повернутый фрейм — но будьте готовы, что «направление гравитации» для модели это не изменит.

Разницы между моделями Fast и Quality я не заметил.

P.S. Видео - это вам открыточка в WhatsApp. Определенно заслуживает реакции😊😊

1❤17👍7🍓2✍1😁1💯1

3.34K viewsedited 21:42

0:03