Forwarded from Dealer.AI
This media is not supported in your browser
VIEW IN TELEGRAM
Делай легче, делай играюче, text-to-lora, кайфуй !
Зачем учить свою LoRA, когда можно взятьинвайт и просто добавить воды описание задачи и получить адаптер без обучения. На самом деле за один forward pass и предварительным обучением гиперсети. Но на инфере действительно за один прямой проход. Sakana.ai снова удивляет.
Работает это при помощи того, что мы берем выходной эмб с модели cls emb для энкодера или last token emb для LLM. Далее инитим гиперсеть случайно (по типу LoRA). После проносим через это опорный эмб с базовой модели и добиваемся, чтобы на выходе из мета-сети получить консистентые отображения. Также используется принцип mutual learning, чтобы обмениваться с LoRA учителя градиентами, как по скрытым состояниям, так и по выходу вероятностей. Т.е. происходит и шеринг весов и дистилляция модели учителя.
Задача тут в том, чтобы получить сеть, которая может порождать LoRA веса схожие с весами учителя и не терять task specific. Скормлено в таком сетапе сотни известных и популярных адаптеров и связанных с ними задач. Авторы так же отмечают трансфер и на unseen задачи. Т.е. обещают свойства out of domain трансфера.
Интересное. Над пробнуть.
Зачем учить свою LoRA, когда можно взять
Работает это при помощи того, что мы берем выходной эмб с модели cls emb для энкодера или last token emb для LLM. Далее инитим гиперсеть случайно (по типу LoRA). После проносим через это опорный эмб с базовой модели и добиваемся, чтобы на выходе из мета-сети получить консистентые отображения. Также используется принцип mutual learning, чтобы обмениваться с LoRA учителя градиентами, как по скрытым состояниям, так и по выходу вероятностей. Т.е. происходит и шеринг весов и дистилляция модели учителя.
Задача тут в том, чтобы получить сеть, которая может порождать LoRA веса схожие с весами учителя и не терять task specific. Скормлено в таком сетапе сотни известных и популярных адаптеров и связанных с ними задач. Авторы так же отмечают трансфер и на unseen задачи. Т.е. обещают свойства out of domain трансфера.
Интересное. Над пробнуть.
Forwarded from Refat Talks: Tech & AI
Есть ли простое локальное AI решение для конфиденциальных данных? Чтобы поставить на свой комп и оно просто работало.
За последний год+ сталкивался с тремя самыми популярными приложениями (c UI) для работы с локальными LLM: OpenWebUI, Msty, AnythingLLM. Все три позволяют работать как с локальными моделями, так и с подключаться к “облачным”, все три не просто чат, но с доступом к локальным файлам и знаниям. Каждое классное по-своему, но для разных задач и типов пользователей. Разберем что к чему.
Msty - красота и простота
Msty сразу цепляет интерфейсом. Это просто красиво сделанное десктопное приложение с фокусом на приватность. Ставишь, выбираешь модель и файлы и сразу работаешь.
Киллер-фичи:
- Самый простой и интуитивно понятный: вот тут качаешь модель, вот тут загружаешь “знания”
- Коннектор к Obsidian (кто пользуется - оценят)
- Delve Mode - кликаешь на любой термин в ответе AI и он разворачивает тему в отдельном чате. Плюс визуализация этих "ветвлений" в виде графа
- Multiverse Chats - можешь запускать несколько моделей одновременно в одном окне. Удобно для сравнения ответов.
- Встроенная библиотека промптов.
Минусы: закрытый код, для себя бесплатно, но платная коммерческая лицензия, ограниченная кастомизация.
AnythingLLM - швейцарский нож для документов
Если нужно работать с документами и строить knowledge base - AnythingLLM ваш выбор. Open source, MIT лицензия, бесплатный для всех.
Сильные стороны:
- Крутой RAG из коробки - загружаешь PDFs, DOCX, даже целые кодовые базы, и AI отвечает на основе этих данных
- AI-агенты с no-code билдером - можешь настроить автоматизацию задач вроде парсинга сайтов
- Встроенный OCR - сканирует текст даже с картинок
- Есть и десктопная версия, и Docker для совместной работы
- Есть API
- Недавно завезли MCP
Подводные камни: интерфейс немного топорный, сложнее настройка и надо чуть больше разбираться чтобы использовать по полной.
OpenWebUI - для гиков и разработчиков
Самое гибкое и расширяемое решение, симпатичное и функциональное. Если ты power user или разработчик - тебе сюда.
Что круто:
- Есть RAG, есть веб-поиск
- Есть даже интеграция с Google Drive (с заморочками, правда)
- Code Interpreter - модель может выполнять код прямо в чате для анализа данных
- Arena Mode для A/B тестирования разных моделей (как у Msty)
- Мощный OCR
- Гибкие права доступа
- Система функций и тулов - можешь подключать внешние API, создавать кастомные интеграции
- MCP и tool use
- API и целая экосистема вокруг
Но это веб-интерфейс, нужно разворачивать через Docker, и для новичков может быть сложновато. А еще потребуется установка ollama, ну в общем, если вы не знаете как работать с терминалом и докером, то будет сложно.
У них в роадмапе есть планы сделать это все в формате отдельного приложения и тогда OpenWebUI будет вне конкуренции.
Перед выбором определись с приоритетами:
- Просто нужно чтобы запустилось и работало - бери Msty
- Хочешь больше крутилок и нужны еще тулы и простые агенты - AnythingLLM
- OpenWebUI дает максимум гибкости, и он самый hackable
Не забывай про железо. Локальные модели жрут ресурсы. Приличные модели потребуют минимум 16GB RAM, лучше 32GB. И если есть нормальная видеокарта - модели будут работать в разы быстрее. Макбуки на M-чипах в этом плане показывают лучший баланс производительности.
Конечно же есть и другие альтернативы (поделитесь если пользовались сами)?
Интересна ли вообще тема локального AI "для себя"?
За последний год+ сталкивался с тремя самыми популярными приложениями (c UI) для работы с локальными LLM: OpenWebUI, Msty, AnythingLLM. Все три позволяют работать как с локальными моделями, так и с подключаться к “облачным”, все три не просто чат, но с доступом к локальным файлам и знаниям. Каждое классное по-своему, но для разных задач и типов пользователей. Разберем что к чему.
Msty - красота и простота
Msty сразу цепляет интерфейсом. Это просто красиво сделанное десктопное приложение с фокусом на приватность. Ставишь, выбираешь модель и файлы и сразу работаешь.
Киллер-фичи:
- Самый простой и интуитивно понятный: вот тут качаешь модель, вот тут загружаешь “знания”
- Коннектор к Obsidian (кто пользуется - оценят)
- Delve Mode - кликаешь на любой термин в ответе AI и он разворачивает тему в отдельном чате. Плюс визуализация этих "ветвлений" в виде графа
- Multiverse Chats - можешь запускать несколько моделей одновременно в одном окне. Удобно для сравнения ответов.
- Встроенная библиотека промптов.
Минусы: закрытый код, для себя бесплатно, но платная коммерческая лицензия, ограниченная кастомизация.
AnythingLLM - швейцарский нож для документов
Если нужно работать с документами и строить knowledge base - AnythingLLM ваш выбор. Open source, MIT лицензия, бесплатный для всех.
Сильные стороны:
- Крутой RAG из коробки - загружаешь PDFs, DOCX, даже целые кодовые базы, и AI отвечает на основе этих данных
- AI-агенты с no-code билдером - можешь настроить автоматизацию задач вроде парсинга сайтов
- Встроенный OCR - сканирует текст даже с картинок
- Есть и десктопная версия, и Docker для совместной работы
- Есть API
- Недавно завезли MCP
Подводные камни: интерфейс немного топорный, сложнее настройка и надо чуть больше разбираться чтобы использовать по полной.
OpenWebUI - для гиков и разработчиков
Самое гибкое и расширяемое решение, симпатичное и функциональное. Если ты power user или разработчик - тебе сюда.
Что круто:
- Есть RAG, есть веб-поиск
- Есть даже интеграция с Google Drive (с заморочками, правда)
- Code Interpreter - модель может выполнять код прямо в чате для анализа данных
- Arena Mode для A/B тестирования разных моделей (как у Msty)
- Мощный OCR
- Гибкие права доступа
- Система функций и тулов - можешь подключать внешние API, создавать кастомные интеграции
- MCP и tool use
- API и целая экосистема вокруг
Но это веб-интерфейс, нужно разворачивать через Docker, и для новичков может быть сложновато. А еще потребуется установка ollama, ну в общем, если вы не знаете как работать с терминалом и докером, то будет сложно.
У них в роадмапе есть планы сделать это все в формате отдельного приложения и тогда OpenWebUI будет вне конкуренции.
Перед выбором определись с приоритетами:
- Просто нужно чтобы запустилось и работало - бери Msty
- Хочешь больше крутилок и нужны еще тулы и простые агенты - AnythingLLM
- OpenWebUI дает максимум гибкости, и он самый hackable
Не забывай про железо. Локальные модели жрут ресурсы. Приличные модели потребуют минимум 16GB RAM, лучше 32GB. И если есть нормальная видеокарта - модели будут работать в разы быстрее. Макбуки на M-чипах в этом плане показывают лучший баланс производительности.
Конечно же есть и другие альтернативы (поделитесь если пользовались сами)?
Интересна ли вообще тема локального AI "для себя"?
Forwarded from Всеволод Викулин | AI разбор
Надеюсь, я не отбил у вас желание разбираться с LLM System Design. Если нет, то продолжаем.
Второй паттерн. Structured output
Вы выдаете желаемую JSON-схему ответа, LLM не может ее нарушить. Работает благодаря 2-м вещам:
1) Ваш формат конвертируется в грамматику. Генерация каждого следующего токена жестко ограничена этой грамматикой. Считайте, что работает регулярка на выходе модели.
2) Базовая модель дообучалась, чтобы понимать по схеме, что вообще от нее хотят.
Удобно задавать через библиотеку Pydantic. Вы просто программируете классы, Pydantic генерирует нужный json. Пример, когда LLM извлекает поля научной статьи:
Optional объясняет, что keywords может быть не у каждой статьи.
Почему важно
- Убирает боль неверных форматов. При условии, что мы все идем к тулам и агентам (подробнее в 3 паттерне), это супер важно.
- Улучшает прозрачность. Все понятно, что модель нашла , а что найти не смогла (там будет None)
- Самодокументация. Вы сами наложили спецификацию на формат данных, потом всем сильно проще будет разобраться в этом коде.
Structured Output и Reasoning
Никто не мешает вам совмещать Structured Output (SO) с рассуждающими моделями. Пусть они выводят свои рассуждения в отдельное (первое) поле:
Есть статьи, которые говорят, что это ломает рассуждающие способности. Решение: пробуйте 2 раза. Сначала рассуждайте без SO, потом извлейкайте ответ с SO (более простой моделью, конечно)
Литература для изучения
- Документация от OpenAI
- Волшебный доклад про Pydantic
- Подробнее про двойной подход в SO + Reasoning
- Туториал по SO для Langchain
Как обычно, любые вопросы жду в комментариях. Все полезные материалы буду помечать хештегом.
#llm_system_design
Второй паттерн. Structured output
Вы выдаете желаемую JSON-схему ответа, LLM не может ее нарушить. Работает благодаря 2-м вещам:
1) Ваш формат конвертируется в грамматику. Генерация каждого следующего токена жестко ограничена этой грамматикой. Считайте, что работает регулярка на выходе модели.
2) Базовая модель дообучалась, чтобы понимать по схеме, что вообще от нее хотят.
Удобно задавать через библиотеку Pydantic. Вы просто программируете классы, Pydantic генерирует нужный json. Пример, когда LLM извлекает поля научной статьи:
from pydantic import BaseModel
class ResearchPaperExtraction(BaseModel):
title: str
authors: list[str]
keywords: Optional[list[str]]
response = client.responses.parse(
model="gpt-4o-2024-08-06",
input=[...],
text_format=ResearchPaperExtraction,
)
Optional объясняет, что keywords может быть не у каждой статьи.
Почему важно
- Убирает боль неверных форматов. При условии, что мы все идем к тулам и агентам (подробнее в 3 паттерне), это супер важно.
- Улучшает прозрачность. Все понятно, что модель нашла , а что найти не смогла (там будет None)
- Самодокументация. Вы сами наложили спецификацию на формат данных, потом всем сильно проще будет разобраться в этом коде.
Structured Output и Reasoning
Никто не мешает вам совмещать Structured Output (SO) с рассуждающими моделями. Пусть они выводят свои рассуждения в отдельное (первое) поле:
class Step(BaseModel):
explanation: str
output: str
Есть статьи, которые говорят, что это ломает рассуждающие способности. Решение: пробуйте 2 раза. Сначала рассуждайте без SO, потом извлейкайте ответ с SO (более простой моделью, конечно)
Литература для изучения
- Документация от OpenAI
- Волшебный доклад про Pydantic
- Подробнее про двойной подход в SO + Reasoning
- Туториал по SO для Langchain
Как обычно, любые вопросы жду в комментариях. Все полезные материалы буду помечать хештегом.
#llm_system_design
Forwarded from Всеволод Викулин | AI разбор
10 паттернов разработки надежных LLM приложений.
Начинаю серию публикаций по LLM System Design.
Если осилите все 10 паттернов - сможете разрабатывать надежные LLM-приложения, которые не сломаются от наплыва счастливых пользователей.
Поехали.
Паттерн 1. LLM приложение это просто граф
Считайте, что вы разрабатываете обычный софт. Используете микросервисную архитектуру. Сервис 1 ждет ответа от Сервиса 2, если ответ = X, то идет в Сервис 3 и тд.
Только теперь у вас некоторые сервисы это не просто код. Может быть вызов LLM-классификатора, в зависимости от вердикта вызываться какой-то другой код. Или вызов LLM-суммаризатора, ответ которого запишется в NOSQL базу данных.
Получается такой недетерминированный граф, который может решать поразительные задачи. Которые не мог решать обычный софт.
Перечислим часто используемые элементы в этом графе:
- Код бизнес логики. Не пытайтесь отдать это на LLM. Читайте про это статью. Туда же я отношу другие элементы разработки - реляционные базы данных, очереди сообщений и тд.
- Вызов LLM. Они могут соединяться различным образом: идти последовательно, параллельно, при выполнении условия и тд. Строго читать статью
- Внешние инструменты. Например, поисковый движок. Похоже на код, но инструменты не делают бизнес логики. Результат инструментов подается на вход в LLM. Разберем в "Паттерн 3. Все есть инструмент".
- Внешняя база знаний. Так делается RAG. Лучший способ заложить внешние знания в LLM. Подробнее обсудим в "Паттерн 4. Всегда используйте in context learning" и "Паттерн 5. Не переусложняйте RAG".
- Не-LLM модели. Обычно это берты/сверточные сети или бустинги над деревьями. Очень быстры и дешевы. Как правило, обучаются дистилляцией. Поговорим про это в "Паттерн 10. Дистилируйте."
- Guardrails. Модели, которая оценивает качество ответа. Если качество плохое, лучше такое никому не показывать. Обсудим в "Паттерн 8. Human-in-the-loop"
- Человек. У него нужно уточнить, когда непонятно, что делать дальше. У него нужно спросить, когда хотим сделать рискованное действие. Подробнее в "Паттерн 8. Human-in-the-loop"
- Автономные агенты. Редкий зверь, но будет чаще встречаться. Почему редкий. Обсудим в "Паттерн 9. Когда нужны автономные агенты."
Литература для изучения
- Строго mustread пост от Anthropic
- Подробная схема LLM-приложений от Chip Huyen
- Пост, почему надо разделять LLM и бизнес логику
- 500 реальных кейсов LLM-приложений
- Подробный гайд с большим числом деталей
- Принципы проектирования агентов (многое можно почерпнуть и для неагентов)
Как обычно, любые вопросы жду в комментариях. Все разберем.
#llm_system_design
Начинаю серию публикаций по LLM System Design.
Если осилите все 10 паттернов - сможете разрабатывать надежные LLM-приложения, которые не сломаются от наплыва счастливых пользователей.
Поехали.
Паттерн 1. LLM приложение это просто граф
Считайте, что вы разрабатываете обычный софт. Используете микросервисную архитектуру. Сервис 1 ждет ответа от Сервиса 2, если ответ = X, то идет в Сервис 3 и тд.
Только теперь у вас некоторые сервисы это не просто код. Может быть вызов LLM-классификатора, в зависимости от вердикта вызываться какой-то другой код. Или вызов LLM-суммаризатора, ответ которого запишется в NOSQL базу данных.
Получается такой недетерминированный граф, который может решать поразительные задачи. Которые не мог решать обычный софт.
Перечислим часто используемые элементы в этом графе:
- Код бизнес логики. Не пытайтесь отдать это на LLM. Читайте про это статью. Туда же я отношу другие элементы разработки - реляционные базы данных, очереди сообщений и тд.
- Вызов LLM. Они могут соединяться различным образом: идти последовательно, параллельно, при выполнении условия и тд. Строго читать статью
- Внешние инструменты. Например, поисковый движок. Похоже на код, но инструменты не делают бизнес логики. Результат инструментов подается на вход в LLM. Разберем в "Паттерн 3. Все есть инструмент".
- Внешняя база знаний. Так делается RAG. Лучший способ заложить внешние знания в LLM. Подробнее обсудим в "Паттерн 4. Всегда используйте in context learning" и "Паттерн 5. Не переусложняйте RAG".
- Не-LLM модели. Обычно это берты/сверточные сети или бустинги над деревьями. Очень быстры и дешевы. Как правило, обучаются дистилляцией. Поговорим про это в "Паттерн 10. Дистилируйте."
- Guardrails. Модели, которая оценивает качество ответа. Если качество плохое, лучше такое никому не показывать. Обсудим в "Паттерн 8. Human-in-the-loop"
- Человек. У него нужно уточнить, когда непонятно, что делать дальше. У него нужно спросить, когда хотим сделать рискованное действие. Подробнее в "Паттерн 8. Human-in-the-loop"
- Автономные агенты. Редкий зверь, но будет чаще встречаться. Почему редкий. Обсудим в "Паттерн 9. Когда нужны автономные агенты."
Литература для изучения
- Строго mustread пост от Anthropic
- Подробная схема LLM-приложений от Chip Huyen
- Пост, почему надо разделять LLM и бизнес логику
- 500 реальных кейсов LLM-приложений
- Подробный гайд с большим числом деталей
- Принципы проектирования агентов (многое можно почерпнуть и для неагентов)
Как обычно, любые вопросы жду в комментариях. Все разберем.
#llm_system_design
Forwarded from TechSparks
Как-то я это пропустил; или просто недавно появилось: курс для самостоятельного знакомства с ИИ с отличным названием Introduction to AI Fluency; курс хорош тем, что это не очередной бессмысленный справочник по промтам, а пособие по структуре работы с ИИ, актуальное на 2025. Здесь и про делегирование ИИ, и про работу над реальными (хотя и модельными) проектами на каждом занятии.
Помимо содержательной стороны это еще и пример того, как можно сделать современный образовательный продукт, а не просто очередной видеокурс.
https://www.anthropic.com/ai-fluency/overview
Помимо содержательной стороны это еще и пример того, как можно сделать современный образовательный продукт, а не просто очередной видеокурс.
https://www.anthropic.com/ai-fluency/overview
Anthropic Courses
Learn to build with Claude AI
through Anthropic's comprehensive courses and training programs.
through Anthropic's comprehensive courses and training programs.
Forwarded from дAI потестить!
This media is not supported in your browser
VIEW IN TELEGRAM
Forwarded from дAI потестить!
Где сделать себе генеративное личико по одному фото, не устанавливая ComfyUI и не тренируя эти ваши Lora
1. https://app.klingai.com/global/text-to-image
2. https://sora.chatgpt.com/
3. https://www.skyreels.ai/home/tools/text2image
4. https://hailuoai.video/create
5. https://dreamina.capcut.com/ai-tool/image/generate
P.S. Кидайте в комменты о каком сервисе забыл, добавлю.
#faceswap@dAIpotestit
1. https://app.klingai.com/global/text-to-image
2. https://sora.chatgpt.com/
3. https://www.skyreels.ai/home/tools/text2image
4. https://hailuoai.video/create
5. https://dreamina.capcut.com/ai-tool/image/generate
P.S. Кидайте в комменты о каком сервисе забыл, добавлю.
#faceswap@dAIpotestit
Forwarded from дAI потестить!
Памятка видео модель Wan2 (локальненько)
🔗 Основные репозитории
• Wan2.1 GitHub
github.com/Wan-Video/Wan2.1
• ComfyUI Wrapper
github.com/kijai/ComfyUI-WanVideoWrapper
🧩 Модели:
• VAE
huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1_VAE_bf16.safetensors
• CLIP Vision
huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/clip_vision/clip_vision_h.safetensors?download=true
• UMT5 text encoder
huggingface.co/Kijai/WanVideo_comfy/blob/main/umt5-xxl-enc-fp8_e4m3fn.safetensors
huggingface.co/OreX/Models/blob/main/WAN/umt5_xxl_fp8_e4m3fn_scaled.safetensors
• Diffusion models
huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors
huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors
huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/blob/main/wan2.1-i2v-14b-480p-Q4_K_M.gguf
huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-14B_fp8_e4m3fn.safetensors
huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-1_3B_fp8_e4m3fn.safetensors
huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf
civitai.com/models/1299436?modelVersionId=1466629
🛠 Кастомные ноды для ComfyUI:
• NF4/FP4 Loader
github.com/silveroxides/ComfyUI_bnb_nf4_fp4_Loaders
• GGUF Loader
github.com/city96/ComfyUI-GGUF
⚡️ Воркфлоу и примеры:
• wan_t2v_1.3b - текст в видео
github.com/Mozer/comfy_stuff/blob/main/workflows/wan_1.3b_t2v.json
• wan_i2v_14b_nf4_gguf - воркфлоу с квантами
github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_i2v.json
• wanvideo_Fun - Fun модель (есть контроль видео)
github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_Fun_control_example_01.json
• wan_1_3B_VACE_v2v_with_depth_and_lora (есть контроль и референс)
github.com/Mozer/comfy_stuff/blob/main/workflows/wan_1_3B_VACE_v2v_with_depth_and_lora.json
• wanvideo_FLF2V_720P - первый и последний кадр
github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_FLF2V_720P_example_01.json
🎨 Лоры:
• Control Loras (spacepxl) - контролим видео
huggingface.co/spacepxl/Wan2.1-control-loras
• Remade-AI - крутой набор лор
huggingface.co/Remade-AI
• Depth LoRA (1.3B) - контролим лорой глубины
huggingface.co/spacepxl/Wan2.1-control-loras/blob/main/1.3b/depth/wan2.1-1.3b-control-lora-depth-v0.1_comfy.safetensors
🔥 Интересное
VACE
Remove/Replace ANYTHING (VACE + Wan2.1):
• Удаление объектов
civitai.com/models/1454934/remove-anything-with-vacewan21
youtube.com/watch?v=vioEox7CKUs
• Замена объектов
civitai.com/models/1470557?modelVersionId=1663316
youtube.com/watch?v=L9OJ-RsDNlY
• VACE GitHub
github.com/ali-vilab/VACE
• Wan+VACE ноды
github.com/kijai/ComfyUI-WanVideoWrapper
• Depth-Anything Nodes
github.com/DepthAnything/Depth-Anything-V2
Wan2.1-Fun-1.3B-InP:
• Модель
huggingface.co/spaces/alibaba-pai/Wan2.1-Fun-1.3B-InP
• Control LoRA
huggingface.co/alibaba-pai/Wan2.1-Fun-1.3B-Control
• FP8 веса Kijai
huggingface.co/Kijai/WanVideo_comfy/tree/main
• Wan2GP (low VRAM)
github.com/deepbeepmeep/Wan2GP
WAN 2.1 Fun ControlNet 1.1 (Alibaba):
• Хаггингфейс
huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-14B-Control/blob/main/README_en.md
• GitHub
github.com/aigc-apps/VideoX-Fun
• ComfyUI Readme
github.com/aigc-apps/VideoX-Fun/blob/main/comfyui/README.md
До 81 кадра, до 16 fps, до 1024p
Поддержка управления камерой и анимации по референсу
FLF2V (first-last-frame):
• Модель
huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P
• Wan2.1 сайт
wan.video/
• Workflow пример
github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_FLF2V_720P_example_01.json
🕹 Специализированные проекты
ReCamMaster:
• Код
github.com/KwaiVGI/ReCamMaster
• Workflow
drive.google.com/file/d/1E8fxHIhM9qI9YeeAxdTf3SmfqktZAN2W/view
• Видеотуториал
youtube.com/watch?v=TzkBJHu2P4s
🔗 Основные репозитории
• Wan2.1 GitHub
github.com/Wan-Video/Wan2.1
• ComfyUI Wrapper
github.com/kijai/ComfyUI-WanVideoWrapper
🧩 Модели:
• VAE
huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1_VAE_bf16.safetensors
• CLIP Vision
huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/clip_vision/clip_vision_h.safetensors?download=true
• UMT5 text encoder
huggingface.co/Kijai/WanVideo_comfy/blob/main/umt5-xxl-enc-fp8_e4m3fn.safetensors
huggingface.co/OreX/Models/blob/main/WAN/umt5_xxl_fp8_e4m3fn_scaled.safetensors
• Diffusion models
huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors
huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors
huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/blob/main/wan2.1-i2v-14b-480p-Q4_K_M.gguf
huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-14B_fp8_e4m3fn.safetensors
huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-1_3B_fp8_e4m3fn.safetensors
huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf
civitai.com/models/1299436?modelVersionId=1466629
🛠 Кастомные ноды для ComfyUI:
• NF4/FP4 Loader
github.com/silveroxides/ComfyUI_bnb_nf4_fp4_Loaders
• GGUF Loader
github.com/city96/ComfyUI-GGUF
⚡️ Воркфлоу и примеры:
• wan_t2v_1.3b - текст в видео
github.com/Mozer/comfy_stuff/blob/main/workflows/wan_1.3b_t2v.json
• wan_i2v_14b_nf4_gguf - воркфлоу с квантами
github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_i2v.json
• wanvideo_Fun - Fun модель (есть контроль видео)
github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_Fun_control_example_01.json
• wan_1_3B_VACE_v2v_with_depth_and_lora (есть контроль и референс)
github.com/Mozer/comfy_stuff/blob/main/workflows/wan_1_3B_VACE_v2v_with_depth_and_lora.json
• wanvideo_FLF2V_720P - первый и последний кадр
github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_FLF2V_720P_example_01.json
🎨 Лоры:
• Control Loras (spacepxl) - контролим видео
huggingface.co/spacepxl/Wan2.1-control-loras
• Remade-AI - крутой набор лор
huggingface.co/Remade-AI
• Depth LoRA (1.3B) - контролим лорой глубины
huggingface.co/spacepxl/Wan2.1-control-loras/blob/main/1.3b/depth/wan2.1-1.3b-control-lora-depth-v0.1_comfy.safetensors
🔥 Интересное
VACE
Remove/Replace ANYTHING (VACE + Wan2.1):
• Удаление объектов
civitai.com/models/1454934/remove-anything-with-vacewan21
youtube.com/watch?v=vioEox7CKUs
• Замена объектов
civitai.com/models/1470557?modelVersionId=1663316
youtube.com/watch?v=L9OJ-RsDNlY
• VACE GitHub
github.com/ali-vilab/VACE
• Wan+VACE ноды
github.com/kijai/ComfyUI-WanVideoWrapper
• Depth-Anything Nodes
github.com/DepthAnything/Depth-Anything-V2
Wan2.1-Fun-1.3B-InP:
• Модель
huggingface.co/spaces/alibaba-pai/Wan2.1-Fun-1.3B-InP
• Control LoRA
huggingface.co/alibaba-pai/Wan2.1-Fun-1.3B-Control
• FP8 веса Kijai
huggingface.co/Kijai/WanVideo_comfy/tree/main
• Wan2GP (low VRAM)
github.com/deepbeepmeep/Wan2GP
WAN 2.1 Fun ControlNet 1.1 (Alibaba):
• Хаггингфейс
huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-14B-Control/blob/main/README_en.md
• GitHub
github.com/aigc-apps/VideoX-Fun
• ComfyUI Readme
github.com/aigc-apps/VideoX-Fun/blob/main/comfyui/README.md
До 81 кадра, до 16 fps, до 1024p
Поддержка управления камерой и анимации по референсу
FLF2V (first-last-frame):
• Модель
huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P
• Wan2.1 сайт
wan.video/
• Workflow пример
github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_FLF2V_720P_example_01.json
🕹 Специализированные проекты
ReCamMaster:
• Код
github.com/KwaiVGI/ReCamMaster
• Workflow
drive.google.com/file/d/1E8fxHIhM9qI9YeeAxdTf3SmfqktZAN2W/view
• Видеотуториал
youtube.com/watch?v=TzkBJHu2P4s