Метаверсище и ИИще

Сделаем плотный LTX-марафон

На выходных поcидел с ним в обнимку. Впечатления очень противоречивые.
Есть две новости, плохая и хорошая. И масса диванных комментариев про Комфи, память, LTX и опенсорс.
Начнем с плохой.
LTX - абсолютно дикая, неуправляемая, своенравная модель.
Любая правка промпта приводит к полному перестроению сцены, как будто ты задал новый сид.
Бич модели некрупные планы, динамичные сцены и запредельная шакальность лиц на дальних и не очень близких планах. А также мелкие детали, которые носятся по всей сцене, возникая и пропадая.
Я запустил комфи, и радостный такой увидел там готовые темплейты для LTX-2.3
Но.
Они для полной модели, которая жрет 63-73 гиг VRAM.
Да, у них есть пожатая модель, но она жрет 40((.
Я взял их же темплайт, немного его поперчил и посолил и получил адовые видео.
В общем танцы - это не конек LTX.
А что конек - поговорим в следующем посте, ибо есть хорошие новости и про память, и про видосы.

@cgevent

1❤15👍10😱8👎7🔥4😁2

7.58K viewsSergey Tsyptsyn ️️, 13:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

LTX-марафон 2

Теперь хорошие новости.
После египетских танцев я приуныл, но тут Брайан Митро подкинул мне видос с анимацией лица.
И тут LTX-2.3 показала себя совсем с другой стороны.

По пути я озадачился памятью и пошел смотреть, что наваял Киджай. А наваял он знатно - масса весов лежит вот тут:
https://huggingface.co/Kijai/LTX2.3_comfy/tree/main
Но у неискушенного в культуре Комфи пользователя сразу встанет вопрос, а куда и что скачивать? И самое главное, а как это использовать? В отличие от встроенных в Комфи темплейтов, которые вам подсказывают что скачать и куда положить, вы остаетесь один на один с грудой файлов. И самое главное, а как это все запустить?
Ибо в репо у Киджая просто веса и никаких воркфлоу. Реддит вам в помощь, но можно зайти в раздел Community по ссылке выше и там увидеть, как люди клянчат воркфоу, и там же обнаружить ссылки:
https://huggingface.co/Kijai/LTX2.3_comfy/discussions/16
https://huggingface.co/RuneXX/LTX-2.3-Workflows

Я забрал по последней ссылке базовый вокфлоу и ну генерить.
Нет вру. Сначала, глядя на воркфлоу пришлось понять куда и что скачать методом пристального взгляда. Благо имена файлов говорят сами за себя.

Подсунул ему картинку из Midjourney и вот такой промпт (спасибо, Брайан):

Emotional and rhythmic performance. The subject begins to recite a poem, her lips moving in fluid, natural synchronization with the words. Her gaze shifts subtly, reflecting the depth of the verses, with soft blinks and minor changes in facial muscle tension to convey melancholy. She takes a gentle, visible breath between the stanzas. Audio: A calm, resonant female voice reciting Russian poetry with expressive pauses, soft inhaling sounds, and a soulful cadence.

Тонкий подкол про русскую поэзию призван оценить степень владения русским языком.

Получил вот такую шаманку и ея псевдорусския пестни.
Немного офигел от приличного качества.
Присунул картинку с Марго Робби.
И опять удивился (пришлось отключить промпт енхансер, который глядя на Марго, генерит Однажды в Голливуде и добавляет это в промпт).
Взял фотку из гугла - и опять хорошо.

В общем на оживлении портретов ЛТХ себя реабилитировала.
А хорошая новость состоит в том, что все это считалось на 4090 с 24 гига ВРАМ!
Причем шаманка была посчитана в 1920х1080 и 15 секунд!
VAE Decode конечно офигел, но сдюжил.
Причем 15 сек в 720р считалось 2 минуты!

В общем я обнаружил нишу, где LTX показала себя очень хорошо.

Дальше расскажу пару историй, произошедших в ходе тестирования и завершу марафон тестированием на разных картах.

@cgevent

👍24❤11🔥4😁3

7.46K viewsSergey Tsyptsyn ️️, 13:35

Метаверсище и ИИще

LTX-марафон 3. RAM и VRAM

Вдохновленный шаманскими песнями, я решил потестировать LTX-2.3 на разных картах.
Если вы думаете, что у меня 4090 пацталом, то нет, я давно все считаю в облаке, на immers.cloud, где у меня выводок разных карт от 3090 до H200.
Во время тестирования, я создаю, а потом убиваю сервак, но не убиваю при этом образ диска. За минуту переключаясь с одной карты на другую и сохраняя весь софт настроенным и готовым к работе. Просто жму F5 в браузере, где открыт комфи.

Сделал сервак на 3090, запускаю шаманку - вылет на VAE Decode. Хотя VRAM памяти также как и на 4090. 24 гига.
Снижаю разрешение до 720p - снова вылет.
Снижаю с 15 до 10 секунд - снова вылет.
Только 5 секунд в 720р считается нормально.

Пребываю в ступоре. У Брайана на 4090 с 24гб VRAM считает нормально в 1080р 15 сек, а на 3090 с такой же памятью - только 720р и 5 сек. У него Винда, у меня Linux.

chatGPT рассказывает чудовищные версии о том, что драйвера Винды ловко выгружают в RAM куски VRAM, а на Линуксе процесс просто убивается (тут я уже насторожился, и как выяснилось это были ацкие галюцинации). Потом он несет убедительную чушь про кеш второго уровня на Ada Lovelace (4090) и ругает Ampere (3090).
Предлагает секретные флаги для запуска Комфи.
Я пробую - ничего не помогает.
Снижаю до предела temporal size, tile size, оверлапы в VAE Decode.
Колдую с
export PYTORCH_ALLOC_CONF=backend:cudaMallocAsync
export TORCH_CUDA_ARCH_LIST
export TORCH_FLOAT32_MATMUL_PRECISION

Ничего не помогает.

И тут до меня доходит. В командной строке, откуда я запускаю Комфи, я вижу ошибку "Killed", а не "Cuda OOM Error". Killed - значит нехватка памяти, только RAM, а не VRAM.

И тут я вижу, что промахнулся с выбором оперативной памяти, когда конфигурил сервак, выбрал мало.
Убиваю, создаю заново, с 3090 и 128Гиг RAM, и тут же все заводится.
VAE Decode не падает даже на 1080р и 15 сек.

Мораль - оперативки много не бывает, и она важна для задач такого плана.

Пойду допиливать тесты LTX для других карт, продолжение следует.

@cgevent

1👍38❤9😁8🔥5

7.46K viewsSergey Tsyptsyn ️️, edited 14:23

#Нейропрожарка

Авторы: Шипицин Платон, Перегудов Лев, Степанова Виктория и Кирилл Тополевский

«Всего лишь год...»

Эта фраза может стать как обещанием скорой встречи, так и началом долгой, холодной зимы в отношениях.

Представляем ИИ-фильм «It smells different here». Это не история о расставании. Это кино о жизни, какой она бывает, - без искусственных конфликтов, но с настоящими чувствами. О том, как дом перестает быть адресом и становится человеком.

🛠 Ролик создавался для конкурса myfilm48, но, к сожалению, не прошел по хрону)))
⏱️ Срок: 3 дня.

Технические детали:
• Сценарий + промпты: ChatGPT и Claude (не обошлось, конечно же, без ручного вмешательства)
• Статика: Делали на платформе Higgsfield (работали с Nano Banana Pro, юзали также их фичу — Cinema Studio 2.0).
• Видео: Использовали Kling — версии 2.6 и 3.0 для диалогов
• Звуки (саунддиз): Ableton Live и Studio One
• Музыка: Suno
• Монтаж и цветкор: Capcut
• Upscale: Topaz

Финансы: подписка Higgs — 50$, Kling — 60$.

@cgevent

👎34🔥19👍5❤4😁4

8.59K viewsSergey Tsyptsyn ️️, edited 15:59

Метаверсище и ИИще

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

Молния! Comfy1111

Берете любой свой воркфлоу и превращаете его в App.

Просто выбираете инпуты и аутпуты в App builder с разных нод и это превращается в HTML интерфейс c запеченным нутром.

Потом шарите это в Comfy Hub.

И все пользуюцца.

Внутреннее имя проекта действительно Comfy1111.

Завтра больше деталей, а пока посмотрите видосы тут:

https://blog.comfy.org/p/from-workflow-to-app-introducing

@cgevent

1❤56🔥32👎4👍3

13.6K viewsSergey Tsyptsyn ️️, edited 20:40

Метаверсище и ИИще

LTX-марафон 4. Тесты скорости на разных видеокартах.

Прогнал поющую Марго Робби на различных картах.
Зашел на immers.cloud и посоздавал\поубивал сервера, сохраняя конфигурацию Комфи на загрузочном томе.
Конфигурация такая: 720р, 10 сек, 25FPS, steps 8.
Воркфлоу (Киджай) брал отсюда:
https://huggingface.co/RuneXX/LTX-2.3-Workflows

Время засекал во время второго просчета, когда модель уже находится в памяти.

H200 25 секунд 2.943125
H100 38 секунд 3.734678
A100 60 секунда 3.73014
RTX4090 70 секунд 2.08054
RTX3090 128 секунд 3.235584

LTX, конечно, быстрая! Видео длиной 10 секунд генерится 25 секунд на H200. Это быстрее, чем мы привыкли ждать на картинках.

Потом я пошел в chatGPT и сказал, зайди на immers.cloud и сделай табличку с ценами вот в такой конфигурации сервера (128 RAM, 240GB диск, 16 ядер).
Затем попросил его пересчитать в цену за секунду. А затем перемножил результаты тестов в Екселе. Это третья колонка, цена в рублях за видео.

Пока выходит, что 4090 самая выгодная карта, но памяти у нее всего 24 VRAM. Если нужно много памяти, то получается надо брать H200.
Ну и цена, конечно, дешевле, чем любой API. 3 рубля за видео (тут конечно, надо понимать, что во время аренды сервак считает не 100% времени).

Важное дополнение. На картах H200/H100 я увидел 30-процентное увеличение скорости, когда я обновил Pytorch до версии 2.10 с поддержкой cu130. У меня драйвер нвидии показывает Cuda 13.0.
Проверьте, что пишет Комфи при старте, там есть такая информация.
Что типа:
pytorch version: 2.10.0+cu130
Set vram state to: NORMAL_VRAM
Device: cuda:0 NVIDIA H200 NVL : cudaMallocAsync

Всем удачи при работе с Комфи!

@cgevent

1🔥28❤8👍2😱1

7.98K viewsSergey Tsyptsyn ️️, edited 16:43

Метаверсище и ИИще

Для гиков: апскейл видео до 4К от Нвидии. Сразу в Комфи

https://www.reddit.com/r/StableDiffusion/s/aHC85grdmc

@cgevent

From the StableDiffusion community on Reddit: RTX Video Super Resolution Node Available for ComfyUI for Real-Time 4K Upscaling…

Explore this post and more from the StableDiffusion community

❤20🔥6👍1

11.2K viewsSergey Tsyptsyn ️️, 18:05

#Нейропрожарка

Автор: AI - 3D-художник Андрей Зайцев
тг @Vasyadrum

🎬 Рилс: метафора смены профессии — прыжок с шестом vs прыжок с парашютом

⏱️ Срок: примерно 2 рабочих дня

💡 Идея: 9 лет в CG, 4 года character art для игр. Уволился. Решил уйти в AI-продакшен. Сделал рилс, где смена работы внутри профессии — это прыжок с шестом через канаву, а смена профессии — первый прыжок с парашютом. В самолёте — все, с кем познакомился раньше: персонажи из геймдева, видео-чуваки, и AI-кореша — казахский бай с бананом (Higgsfield) и Агент Смит за ноутом (Claude).

🔎 Пайплайн:

- Ключевые кадры: вайбкодил своё приложение через Claude Code — vanilla TypeScript, Banana API (Gemini). Загружаешь референс и фейс-реф, пишешь сценарий, AI Director разбивает на шоты, Batch генерирует контакт-шит 3×3, выбираешь кадры, апскейлишь до 2K. Инфраструктура работает — галерея, таймлайн, Style Engine с пресетами камер. Но Gemini при апскейле рисует что хочет, лица не ловит, композицию воспринимает как вдохновение. Промпт-инжиниринг пока проигрывает нейросети в упрямстве
- Промпты для генерации: Claude
- Анимация sf/ef (болото, стены падают/поднимаются): Kling 3. С шестом прыгнуть так и не смог — сделал катом
- Анимация нескольких персов: Artificial Analysis Arena (бесплатно, по 3 кадра в день)
- Монтаж: DaVinci Resolve
- Звуковой дизайн: zvukipro.com
- Войсовер: начитал на диктофон

💰 Бюджет: подписка Kling истратил ~15$ + Banana API ~500₽.

@cgevent

1👎70👍38😁13❤7😱7🔥2🙏2

7.93K viewsSergey Tsyptsyn ️️, edited 21:00

Метаверсище и ИИще

OpenAI собирается вструмить Sora прямо в chatGPT.

Не знаю, насколько это релевантно аудитории канала, я так понимаю, все сидят на сайте Sora.
Но по мнению интернетика это шаг, призванный увеличить приподупавшие загрузки\установки приложения chatGPT.
Напоминаю, после того, как OpenAI прогнулись под Пентагон, а Антропик - нет, в сети прошел некий флешмоб типа "к буйволу OpenAI - перехожу на Антропик". Загрузки Клода выросли, chatGPT - просели.
В удивительное время живем, однако.
https://www.pcmag.com/news/report-sora-ai-video-generation-may-be-coming-to-chatgpt
Никаких улучшений в Sora не упоминается.

@cgevent

PCMAG

Report: Sora AI Video Generation May Be Coming to ChatGPT

A new report says OpenAI plans to let you make videos directly from its ChatGPT interface.

😁21👎6❤4

7.83K viewsSergey Tsyptsyn ️️, edited 13:21

Метаверсище и ИИще

📘 На Stepik вышел курс — «AI Agents PRO: LangGraph, AutoGen и LLMOps в продакшне»

Хотите собирать AI-агентов и RAG-сервисы так, чтобы это стабильно работало в эксплуатации: с метриками, оценкой качества, контролем стоимости и нормальным деплоем? Этот курс — полный путь от прототипа к прод-сервису.

Агенты: LangGraph/AutoGen, роли/состояния, FSM/DAG, параллелизм
RAG: hybrid retrieval + rerank (Qdrant/FAISS/Weaviate)
Надёжность: таймауты, ретраи, идемпотентность, DLQ
Eval/качество: golden-сеты, LLM-judge, pass@k, quality-гейты
Observability: логи/трейсы, OpenTelemetry, Prometheus/Grafana
Security: строгий JSON (Pydantic), guardrails, PII, RBAC/ABAC

🎓 Сертификат Stepik — добавьте в резюме или LinkedIn

🚀 Скидка 25% по ссылке — действует 48ч

👉 Забрать курс на Stepik

👎33👍7❤3😁2

7.38K viewsSergey Tsyptsyn ️️, 14:01

Метаверсище и ИИще

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

0:28

This media is not supported in your browser

This media is not supported in your browser

VIEW IN TELEGRAM

Ну и как вам новая функция Rotate Object в последней бете Фотошопа?

Выглядит адово хорошо - а ведь это просто плоская картинка на входе. Как?

Потом можно попасть в освещение с помощью Harmonize.

Го тестировать!

@cgevent

🔥75👍23❤15😱7👎3

11.5K viewsSergey Tsyptsyn ️️, 17:02

Метаверсище и ИИще

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

1:46

This media is not supported in your browser

Video или Seedance?

Тут AheadForm выпустила Origin F1. И все такие - ну постить.
Я подумал, что это несимметрично и нашел вам мужскую версию Origin M1.

Но на женской ябженился уже щас.

@cgevent

🔥25😱7👎3❤2

6.85K viewsSergey Tsyptsyn ️️, 18:04

About

Blog

Apps

Platform