Интересное что-то
517 subscribers
2.72K photos
253 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from Tensor Banana
Ускоряем Hunyuan video fast еще в 2 раза на винде

Есть оригинальный Hunyuan-video-13B, он работает за 20-30 шагов (20-30 минут на видео), а есть дистиллированный Hunyuan fast, который работает за 6-10 шагов. 6 шагов мне не нравятся, 10 выглядят намного лучше (10 минут на генерацию 1 видео в 720p, 2 секунды, 48 кадров).

Недавно вышел waveSpeed, который ускоряет flux, LTX и hunyuan в 1.5-2 раза в comfy на видюхах 3000 серии и новее с помощью двух технологий: first-block-cache и torch-model-compile+. На моей 3090 прирост скорости относительно Hunyuan fast - в 2 раза, до 4.6 минуты на 1 видео. Поддерживается воркфлоу от comfyanonymous. Воркфлоу от kijai пока не поддерживается.

Hunyuan из коробки умеет nsfw. Верх довольно неплохой, низ слегка зацензурен, но лучше, чем в дефолтном flux. Но умельцы уже наделели 100+ лор для Hunyuan на civitai для разных nsfw поз, движений, персонажей и стилей (в https://civitai.com/models ставим 2 фильтра: LoRA + Hunyuan video).

fast model, fp8: 
48 frames, 48s/it, 10 min, 19 GB vram, 39 GB RAM

fast model, sage-attention, first-block-cache:
48 frames, 25s/it, 5.6 min, 20 GB vram, 38 GB RAM

sage-attention, first-block-cache, compile+:
25 frames, 10s/it, 2.1 min, 18 GB vram, 29 GB RAM
48 frames, 22s/it, 4.7 min, 20 GB vram, 38 GB RAM
61 frames, 34s/it, 6.7 min
65 frames - OOM


Но compile+ ускоряет генерацию не всегда. Иногда torch compile занимает дополнительные 47 секунд. Перекомпилируется модель периодически, 1 раз в 2-3 генерации. Хз как побороть, скорее всего, vram мало, возможно, надо сделать меньше разрешение или количество кадров.

Предположу, что для работы Hunyuan хватит 32 GB RAM. У меня просто еще xtts+wav2lip в памяти висят. Если у вас в самом конце comfy вылетает без ошибок - снизьте разрешение или кол-во кадров.
Видел отзывы, что Hunyuan работает на 12 GB vram. Пока не тестил.


УСТАНОВКА

Нужен тритон и видюха 3000 серии или новее. 2000 серия nvidia не поддерживается. cuda toolkit 12.4+.
1. обновляем comfy через update_comfyui.bat

2. как установить тритон и sage-attention в комфи на винду:
https://www.reddit.com/r/StableDiffusion/comments/1h7hunp/how_to_run_hunyuanvideo_on_a_single_24gb_vram_card/
Первый шаг в этой инструкции пропускаем (установка нод kijai/ComfyUI-HunyuanVideoWrapper можно пропустить, мы будем использовать официальные ноды встроенные в комфи. Были отзывы, что в нодах от kijai пока не поддерживаются лоры при работе с first-block-cache). Выполняем пункты 2-4, включаем переводчик, если надо. Последние пункты 5-8 со скачиванием моделей не выполняем, мы скачаем другие, они меньше и быстрее.

3. Качаем clip_l.safetensors and llava_llama3_fp8_scaled и hunyuan_video_vae_bf16.safetensors: https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/
Качаем hunyuan fast: https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_FastVideo_720_fp8_e4m3fn.safetensors и кладем в diffusion_models

4. в run_nvidia_gpu.bat для запуска comfy надо добавить флаг --use-sage-attention вот так:
.\python_embeded\python.exe -s ComfyUI\main.py --windows-standalone-build --use-sage-attention

5. Устанавливаем custom node через comfyui manager -> install via GIT URL:
https://github.com/chengzeyi/Comfy-WaveSpeed

6. Hunyuan воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/hunyuan_fast_wave_speed_with_lora.json
Flux воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/flux_wave_speed.json

Советы:
- 1280x720, 720x1280, 544x960, 960x544 - рекомендуемые разрешения. В остальных могут быть артефакты.
- при малом количестве кадров анимация может работать хуже и с артефактами, рекомендую 25 и 49 кадров (1 и 2 сек)
- img2video пока нет, но разрабы обещают. Есть video2video и IPadapter2video от kijai.


- FLUX dev (bonus) -
1024x1024 20 steps

FLUX - 1.26s/it, 26 s.
FBC - 1.21it/s, 17 s.
FBC + compile+ - 1.20it/s, 17 s.

Прирост скорости во флаксе + waveSpeed составил 35%.

Во флаксе compile+ не работает на 3000 серии с flux-fp8, но работает с bf16, из-за этого прироста скорости не заметно. В hunyuan compile+ работает и дает прирост.
Forwarded from rafanalytics
Расширенный туториал по резюме на стажировку 🎓

Я уже писал краткий гайд про то, как составлять резюме на стажировку с шаблонами, но недавно Яндекс.Практикум любезно написал по этому полноценную статью (спасибо, Практикум 📖🖤)

В общем, если не читали тот пост, то рекомендую обратиться именно к этой статье, ну прям очень приятно расписали для будующих стажёров ☺️

А ещё надеюсь вы заметили, что посты начали выходять чаще (а не раз в месяц 🤡)
Скажу даже больше, я составил контент-план, который должен помочь мне постить регулярнее, поэтому обязательно оставляй реакцию ❤️ и новые посты не заставят себя ждать
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
Омни модель локально на айпаде

Вышла MiniCPM-o 2.6 - опенсорсная омни модель от китайцев из OpenBMB. По пониманию картинок, моделька, не смотря на свой скромный размер, обходит ранние версии GPT-4o.

За основу взяли Qwen2.5 7B, к которому приклеили Whisper и SigLip для обработки аудио и картинок на вход. Для синтеза речи используется ChatTTS-200M. У получившейся модели всего 8 миллиардов параметров, то есть квантизированную версию запустить можно практически где угодно.

Хоть и визуальные бенчи и понимание звука работают довольно хорошо, но разговаривает модель точно не на уровне 4о. Модель сносно говорит на английском (китайский проверить не смог) и может немного играться голосом, но про остальные языки можно забыть. На тасках посложнее, вроде пения, модель совсем сыпется. Но результаты, для такой весовой категории, всё равно отличные.

Это всё ещё одна из первых опенсорс омни моделей, тренировать их пока что не очень умеют. Но то же самое было и с VLM совсем недавно, а сейчас у нас есть сразу несколько хороших семейств моделей в совсем разных весовых категориях. Дальше будет только лучше.

Демо (русский немного понимает, но не разговаривает)
Веса

@ai_newz
Forwarded from DeepSchool
В чём же считать: fp8, fp32 или fp16

В каких типах данных крутить нейронку, чтобы и память сэкономить, и точность не потерять? Float16, bfloat16, TF32, FP8 — за этими названиями скрываются разные способы оптимизации работы с числами меньшей разрядности.

В новой статье мы разберёмся, как они работают, где их лучше применять, как учить и как инференсить. А ещё — с какими подводными камнями здесь можно столкнуться. Читайте новую статью по ссылке, чтобы ответить на эти вопросы: https://deepschool-pro.notion.site/int-8-fp32-fp16-f8041ec0b26f4627acae49f0ccf1975f?pvs=4
Forwarded from black_samorez
This media is not supported in your browser
VIEW IN TELEGRAM
В прошлую пятницу рассказывал на семинаре Cohere For AI про нашу последнюю статью по квантизации LLM-ок: “Pushing the Limits of Large Language Model Quantization via the Linearity Theorem”.

Если кратко, в статье мы:

Вывели и протестировали модель влияния квантизации на глобальное качество модели: Taylor expansion goes brrrrrr.
Разработали новый метод 0-shot квантизации “HIGGS”: как bitsanbytes nf4 только круче.
Придумали новый способ оптимизации квантизации с послойно динамической битностью: линейная модель свела задачу к задаче рюкзака.

Для HIGGS уже готов прототип интеграции с Hugging Face: работает пока только с Llama-3 и gemma, но мы работает над поддержкой любых моделей.

Запись семинара (длиной 56 минут) можно найти на ютубе.
Forwarded from Aspiring Data Science (Anatoly Alekseev)
#toboml #ccmp

Забавно, в оранжевой книге ML нашел главу на тему, по которой я, собственно, написал статью и сделал небольшое исследование, Convex combination of model predictions (CCMP).
У меня, однако, не прямое комбинирование, а несколько более хитрое.
Статья пока не опубликована, т.к. хотелось показать лучшие практики кодинга, и перфекционизм завёл в паралич )

У Карла есть целый блокнот на эту тему.
Можно ли за 10 минут заполнить бэклог свободного рисерча на месяц?
Изи подумал я, засек время и начал это писать:

1) натренировать графовую нейронку на данных логов пользователей с таргетом - бизнес-метриках, чтобы использовать ускорения AB (типо matching с использованием сессий, но без нарушения sutva)

2) ту же нейронку проверить в сегментации (эмбединги + кластеризация)

3) её же использовать для поиска aha момента (ищем подграф с наибольшим приростом в метрике, чем-то типо имитаций shap)

4) кластеризовать товары потребительские корзины по БЖУ, времени сборки и составу (не состав = продукты в корзине, а состав = то из чего продукты состоят)

5) Научиться предиктить LTV по первым сессиям и вывести отсюда ключевые факторы успешного удержания в продукте

6) Вывести в отчетик "авто-факторный анализ" - тупо перегруппировать метрику по всем разумным атрибутам и отсортировать по приросту значимости изменений (DSensei это и делали на старте)

7) Исследовать есть ли сетевые эффекты в приложениях для заказа еды

8) Научиться считать стат. значимость shapley значений и ускорить любой ручной анализ "факторов успеха" в 10-100 раз

9-10) за 10 минут не успел зато честно 🗿

за 10 минут после написания нагуглил проекты только для 3 из 8 идей (aha моменты, прогноз ltv, автооанализ KPI), так что 5 - свободны, можно тестить.
Please open Telegram to view this post
VIEW IN TELEGRAM
12 выводов за 12 недель работы с GPT моделями:

1) на малых проектах 3-4 своих кастомных функции-обертки api сделать лучше, чем ковыряться в массивном langchain с 100 уровнями абстракций.

2) прокси для аналитики запросов лучше чем логирование в функциях и методах

3) модель пишет промпты для себя кратно лучше человека

4) базу знаний для RAG модель тоже лучше составит сама для себя из сырых данных

5) RAG с 4-20 примерами пока что сильно кост эффективнее запроса с огромным контекстом

6) для поиска по контексту в RAG может залететь попросить GPT сформулировать из сообщений и истории вопрос в базу знаний и искать новый контекст по этому вопросу.

7) RAG с цепочкой валидации в 2-3 шага улучшает ответы в 2-3 раза.

8) увеличение глубины шагов валидации дальше 3 не улучшает ответы в большинстве задач общения с клиентами

9) модели плохо понимают контекст отрицания, пишем только в прямолинейной логике.

10) подзадачи обработки лучше выносить в цепочку диалога, например, сначала просим ответить, потом проверить ответ на валидность, потом улучшить, потом отформатировать.

11) RAG + fine-tuning в свой GPTs работает сильно лучше просто RAG

12) в fine-tuning своего GPTs лучше передавать базовую инфу и руководства к стилю ответа, а не пытаться запихнуть часть инфы для QA

NB все субъективно, выводы из небольшого количества продовых продуктов (<20 Шт) и вообще все вокруг - галлюцинация SORA 😮‍💨
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DevFM
The implementation of Rewind in Braid

Игра Braid написана одним разработчиком. Доклад от автора, как он реализовал бесконечную перемотку времени назад, учитывая ограничение игровых консолей, где нет условно бесконечной оперативной памяти.

Предлагается занятный вариант реализации – давайте хранить весь мир и его состояние сериализовать. И дальше куча хаков для оптимизации: неизменяемые объекты хранить в единственном экземпляре, фоновые частицы (чисто визуал, условно листья на заднем фоне) перегенерировать в похожем виде на основе случайного числа и текущего времени. Состояние мира хранится в виде цепочек с опорными кадрами (похоже на кодирование видео). Тут я не совсем понял, он предлагает хранить состояние целиком, а не разницу кадров.

Потом обсуждается хранение звука при перемотке. Завершает доклад ещё одна хитрая оптимизация. В раунде с кольцом замедления его способ хранения "примерного" состояния фоновых частиц не работает. Пришлось отдельное решение делать. Приятного просмотра!

#youtube #systemdesign