Forwarded from Machinelearning
Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.
⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.
@ai_machinelearning_big_data
#AI #ML #OpenSora #Text2Video #Image2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Life2film
Media is too big
VIEW IN TELEGRAM
Тизер sci-fi сериала Azaliia - про роботов клонов.
Дочь хотела стать актрисой, а я режиссером! 😊
А точнее, начинаю серию экспериментов, возможно ли AI Filmmaking с использованием различных новых инструментов с упором на Open Source.
Картинки и история сделаны в сервисе SuperDuperAi.co - используется FLUX для визуализации скрипта и Lora модель для актеров (натренирована на фотографиях дочери).
Потом картинки прогнал через image2video COG в ComfyUI, а для sound design использовал Stable Audio 1.0.
По мере реализации буду выкладывать результаты в канале @life2film.
Рад буду идеям для улучшения или колобрации.
Дочь хотела стать актрисой, а я режиссером! 😊
А точнее, начинаю серию экспериментов, возможно ли AI Filmmaking с использованием различных новых инструментов с упором на Open Source.
Картинки и история сделаны в сервисе SuperDuperAi.co - используется FLUX для визуализации скрипта и Lora модель для актеров (натренирована на фотографиях дочери).
Потом картинки прогнал через image2video COG в ComfyUI, а для sound design использовал Stable Audio 1.0.
По мере реализации буду выкладывать результаты в канале @life2film.
Рад буду идеям для улучшения или колобрации.
Forwarded from Life2film
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Stability AI, следуя своему анонсу, выпустила в открытый доступ младшую text-to-image модель семейства Stable diffusion 3.5 - Medium c 2.6 млрд. параметров.
Модель позиционируется в семействе SD 3.5 как решение для работы на потребительском оборудовании.
SD 3.5 Medium способна генерировать изображения с разрешением от 0.25 до 2 мегапикселей, а для запуска с максимальной производительностью ей требуется всего 9.9 Gb VRAM.
Stable Diffusion 3.5 Medium претерпела ряд изменений в архитектуре (MMDiT-X вместо MMDiT ) и протоколах обучения для корреляции качества с числом параметров, связности и возможности генерации изображений с различным разрешением.
SD 3.5 Medium прошла обучение на разрешениях от 256 до 1440 пикселей.
Текстовые энкодеры не претерпели изменений, остались те же, что и у Stable Diffusion 3.5 Large: OpenCLIP-ViT/G, CLIP-ViT/L и T5-xxl.
Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или или Diffusers.
# install Diffusers
pip install -U diffusers
# Inference
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")
#AI #ML #Diffusion #SD3_5Medium #StabilityAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Технологии | Нейросети | Боты
Media is too big
VIEW IN TELEGRAM
Он умеет генерировать видео 720p в 15fps, пока только text-2-video. В будущем планируют завезти image-2-video, контроль движений и создание видео на основе раскадровок.
Из плюсов — тут почти нет цензуры, ограничения минимальные, а для установки нужна карта с 9,3 ГБ памяти.
• Подробнее
• Github
• Huggingface
#neural #нейросети
@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Runway представила расширенные функции управления камерой в своей модели Gen-3 Alpha Turbo, значительно расширив возможности пользователей по созданию AI-генерированных видео. Теперь доступны точные настройки движений камеры, включая горизонтальные облеты вокруг объектов, динамические зумы и плавные перемещения камеры, что позволяет создавать более захватывающий и кинематографичный контент.
Для эффективного использования этих функций рекомендуется включать подробные инструкции по движению камеры в ваши текстовые запросы. Например, указание таких движений, как "tracking shot", "dolly shot" или "pan shot", поможет AI сгенерировать желаемый визуальный эффект. Кроме того, определение углов съемки, таких как "low angle", "high angle" или "overhead", позволит еще точнее настроить результат.
Для эффективного использования этих функций рекомендуется включать подробные инструкции по движению камеры в ваши текстовые запросы. Например, указание таких движений, как "tracking shot", "dolly shot" или "pan shot", поможет AI сгенерировать желаемый визуальный эффект. Кроме того, определение углов съемки, таких как "low angle", "high angle" или "overhead", позволит еще точнее настроить результат.
Forwarded from Ai Films
🌟 Runway запускает The Hundred Film Fund для поддержки фильмов, созданных с помощью ИИ! 🌟
✨ Прекрасные новости для креативных профессионалов: Runway объявил о запуске The Hundred Film Fund — фонд объемом $5M (с возможностью увеличения до $10M) для создания и поддержки 100 фильмов с использованием технологий ИИ. Этот фонд открыт для проектов в различных форматах: полнометражные фильмы, короткометражки, музыкальные клипы, экспериментальные проекты и многое другое. 🎥💡
Подробности о финансировании:
Гранты от $5K до $1M+
Дополнительно $2M в виде кредитов Runway для награжденных проектов
🔹 Присоединяйтесь к лидерам индустрии
🔹 Среди участников консультационного совета – такие уважаемые специалисты, как Джейн Розенталь (Tribeca), Кристина Ли Сторм (Телевизионная академия) и Стефан Зонненфельд (Company 3), которые будут направлять и поддерживать выбранные проекты.
Кристина Ли Сторм поделилась: «Я рада быть в совете, чтобы помочь режиссерам по всему миру исследовать новые методы повествования с инструментами ИИ от Runway».
Вы режиссер, продюсер или сценарист, готовый рассказать новую историю с помощью технологий ИИ? Подавайте заявку
https://runwayml.com/news/hundred-film-fund
✨ Прекрасные новости для креативных профессионалов: Runway объявил о запуске The Hundred Film Fund — фонд объемом $5M (с возможностью увеличения до $10M) для создания и поддержки 100 фильмов с использованием технологий ИИ. Этот фонд открыт для проектов в различных форматах: полнометражные фильмы, короткометражки, музыкальные клипы, экспериментальные проекты и многое другое. 🎥💡
Подробности о финансировании:
Гранты от $5K до $1M+
Дополнительно $2M в виде кредитов Runway для награжденных проектов
🔹 Присоединяйтесь к лидерам индустрии
🔹 Среди участников консультационного совета – такие уважаемые специалисты, как Джейн Розенталь (Tribeca), Кристина Ли Сторм (Телевизионная академия) и Стефан Зонненфельд (Company 3), которые будут направлять и поддерживать выбранные проекты.
Кристина Ли Сторм поделилась: «Я рада быть в совете, чтобы помочь режиссерам по всему миру исследовать новые методы повествования с инструментами ИИ от Runway».
Вы режиссер, продюсер или сценарист, готовый рассказать новую историю с помощью технологий ИИ? Подавайте заявку
https://runwayml.com/news/hundred-film-fund
Runwayml
Runway News | Runway launches fund to provide artists resources to make one hundred films
We believe that the best stories are yet to be told, but that traditional funding mechanisms often overlook new and emerging visions within the larger industry ecosystem. With that in mind, we are excited to announce the introduction of The Hundred Film Fund.…
🚀 Docling: Мощный инструмент для анализа и преобразования документов 🚀
Docling — это гибкое и удобное решение для парсинга документов с поддержкой множества популярных форматов и легким экспортом в нужный формат. 💡
Основные возможности
🗂️ Поддержка популярных форматов документов (PDF, DOCX, PPTX, изображения, HTML, AsciiDoc, Markdown) с экспортом в Markdown и JSON
📑 Углубленный анализ PDF-документов, включая макет страниц, порядок чтения и таблицы
🧩 Унифицированный и выразительный формат DoclingDocument для представления данных
📝 Извлечение метаданных: заголовок, авторы, ссылки, язык и многое другое
🤖 Интеграция с LlamaIndex 🦙 и LangChain для мощных RAG / QA приложений
🔍 Поддержка OCR для сканированных PDF
💻 Удобный интерфейс CLI
https://github.com/DS4SD/docling
Docling — это гибкое и удобное решение для парсинга документов с поддержкой множества популярных форматов и легким экспортом в нужный формат. 💡
Основные возможности
🗂️ Поддержка популярных форматов документов (PDF, DOCX, PPTX, изображения, HTML, AsciiDoc, Markdown) с экспортом в Markdown и JSON
📑 Углубленный анализ PDF-документов, включая макет страниц, порядок чтения и таблицы
🧩 Унифицированный и выразительный формат DoclingDocument для представления данных
📝 Извлечение метаданных: заголовок, авторы, ссылки, язык и многое другое
🤖 Интеграция с LlamaIndex 🦙 и LangChain для мощных RAG / QA приложений
🔍 Поддержка OCR для сканированных PDF
💻 Удобный интерфейс CLI
https://github.com/DS4SD/docling
GitHub
GitHub - docling-project/docling: Get your documents ready for gen AI
Get your documents ready for gen AI. Contribute to docling-project/docling development by creating an account on GitHub.
Forwarded from Derp Learning
Для mochi запилили редактор mochi comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!
Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).
comfyui mochiedit
comfyui mochiwrapper
models
@derplearning
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!
Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).
comfyui mochiedit
comfyui mochiwrapper
models
@derplearning
Instructor: Самая популярная библиотека для структурированных выводов LLM
Instructor — это ведущая библиотека Python для работы со структурированными выводами крупных языковых моделей (LLM), с более чем 600,000 загрузками в месяц. Построенная на основе Pydantic, она предлагает простой, понятный и удобный API для управления валидацией, повторами запросов и потоковыми ответами. С этой библиотекой ваши LLM-процессы станут намного эффективнее!
🚀 Основные возможности
* Модели ответов: Определяйте структуру выводов LLM, используя модели Pydantic
* Управление повторами: Легко настройте количество попыток для стабильности запросов
* Валидация: Убедитесь, что ответы LLM соответствуют вашим требованиям
* Поддержка потоков: Работайте с списками и частичными ответами без лишних сложностей
* Гибкие бэкенды: Интегрируйтесь с разными LLM-поставщиками, не ограничиваясь только OpenAI
https://github.com/instructor-ai/instructor
Instructor — это ведущая библиотека Python для работы со структурированными выводами крупных языковых моделей (LLM), с более чем 600,000 загрузками в месяц. Построенная на основе Pydantic, она предлагает простой, понятный и удобный API для управления валидацией, повторами запросов и потоковыми ответами. С этой библиотекой ваши LLM-процессы станут намного эффективнее!
🚀 Основные возможности
* Модели ответов: Определяйте структуру выводов LLM, используя модели Pydantic
* Управление повторами: Легко настройте количество попыток для стабильности запросов
* Валидация: Убедитесь, что ответы LLM соответствуют вашим требованиям
* Поддержка потоков: Работайте с списками и частичными ответами без лишних сложностей
* Гибкие бэкенды: Интегрируйтесь с разными LLM-поставщиками, не ограничиваясь только OpenAI
https://github.com/instructor-ai/instructor
Media is too big
VIEW IN TELEGRAM
🎥 X-Portrait 2 от ByteDance: анимация статичных изображений с высокой точностью
Что нового
X-Portrait 2 — продвинутая AI-модель от ByteDance, преобразующая статичные портреты в реалистичные анимации, добавляя динамичные выражения лица на основе одного референсного видео. Технология точно захватывает и переносит тончайшие выражения, такие как гримасы, мимика и даже движение языка.
Ключевые возможности
- Анимация с детализированной мимикой: перенос мимики с видео на фото, включая мелкие движения лица.
- Высокая точность движений: распознает и обрабатывает сложные выражения, передавая даже минимальные изменения.
- Поддержка различных стилей: совместима с реалистичными и мультяшными изображениями, что расширяет её использование в анимации и создании виртуальных аватаров.
Применение
Подходит для создания анимации в кино, играх, на платформах вроде TikTok как бесплатная альтернатива платным решениям для аватаров. Доступна на сайте ByteDance.
🔗 [X-Portrait 2](https://byteaigc.github.io/X-Portrait2/)
Что нового
X-Portrait 2 — продвинутая AI-модель от ByteDance, преобразующая статичные портреты в реалистичные анимации, добавляя динамичные выражения лица на основе одного референсного видео. Технология точно захватывает и переносит тончайшие выражения, такие как гримасы, мимика и даже движение языка.
Ключевые возможности
- Анимация с детализированной мимикой: перенос мимики с видео на фото, включая мелкие движения лица.
- Высокая точность движений: распознает и обрабатывает сложные выражения, передавая даже минимальные изменения.
- Поддержка различных стилей: совместима с реалистичными и мультяшными изображениями, что расширяет её использование в анимации и создании виртуальных аватаров.
Применение
Подходит для создания анимации в кино, играх, на платформах вроде TikTok как бесплатная альтернатива платным решениям для аватаров. Доступна на сайте ByteDance.
🔗 [X-Portrait 2](https://byteaigc.github.io/X-Portrait2/)
Forwarded from Machinelearning
TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.
TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.
Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.
TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.
Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.
@ai_machinelearning_big_data
#AI #ML #T2I #TIPO #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.
В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.
Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.
@ai_machinelearning_big_data
#AI #ML #LLM #Prompt #Github #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Stable Diffusion 3.5 Prompt Guide: создание лучших промптов
Stability AI опубликовала детальное руководство по работе с Stable Diffusion 3.5, которое поможет генерировать более качественные изображения с минимальными усилиями. ✍️
Что внутри:
- Основы создания промптов: как правильно формулировать запросы.
- Примеры для разных стилей: от реализма до сюрреализма.
- Рекомендации по использованию negative prompts для устранения нежелательных элементов.
- Особенности 3.5-версии: улучшенная обработка текстовых описаний и деталей.
- Советы для настройки параметров, таких как
🔗 [Stable Diffusion 3.5 Prompt Guide](https://stability.ai/learning-hub/stable-diffusion-3-5-prompt-guide?utm_medium)
Stability AI опубликовала детальное руководство по работе с Stable Diffusion 3.5, которое поможет генерировать более качественные изображения с минимальными усилиями. ✍️
Что внутри:
- Основы создания промптов: как правильно формулировать запросы.
- Примеры для разных стилей: от реализма до сюрреализма.
- Рекомендации по использованию negative prompts для устранения нежелательных элементов.
- Особенности 3.5-версии: улучшенная обработка текстовых описаний и деталей.
- Советы для настройки параметров, таких как
CFG Scale
, Steps
и других. 🔗 [Stable Diffusion 3.5 Prompt Guide](https://stability.ai/learning-hub/stable-diffusion-3-5-prompt-guide?utm_medium)
Stability AI
Stable Diffusion 3.5 Prompt Guide — Stability AI
This guide offers practical prompting tips for Stable Diffusion 3.5, allowing you to refine image concepts quickly and precisely.
💡 RAG-Diffusion: Трансформация текста и изображений в сложные сцены
### 🔑 Ключевые особенности
- Референсная генерация: Использует изображения и текстовые подсказки для формирования визуально и концептуально согласованных сцен.
- Фрагментарная композиция: Позволяет указывать различные компоненты сцены отдельно, используя несколько текстовых описаний.
- Точные детали: Высокое качество генерации даже при сложных сценах благодаря кросс-энкодеру для мультимодальной фьюзии.
### 🖥️ Применение
- Генерация контента для фильмов, игр и AR/VR-среды.
- Прототипирование сложных визуальных сценариев для дизайнеров.
- Использование в мультимодальных поисковых системах.
🔗 [GitHub](https://github.com/NJU-PCALab/RAG-Diffusion)
### 🔑 Ключевые особенности
- Референсная генерация: Использует изображения и текстовые подсказки для формирования визуально и концептуально согласованных сцен.
- Фрагментарная композиция: Позволяет указывать различные компоненты сцены отдельно, используя несколько текстовых описаний.
- Точные детали: Высокое качество генерации даже при сложных сценах благодаря кросс-энкодеру для мультимодальной фьюзии.
### 🖥️ Применение
- Генерация контента для фильмов, игр и AR/VR-среды.
- Прототипирование сложных визуальных сценариев для дизайнеров.
- Использование в мультимодальных поисковых системах.
🔗 [GitHub](https://github.com/NJU-PCALab/RAG-Diffusion)
⚡ FLUX: расширение инструментов для генерации и редактирования изображений ⚡
Black Forest Labs представили
### 🚀 Состав набора:
- FLUX.1 Fill
Инструмент для inpainting и outpainting. Позволяет дополнять или перерисовывать части изображения с высокой точностью.
- FLUX.1 Depth и FLUX.1 Canny
Модули ControlNet для управления глубиной и контурами изображений. Доступны в формате LoRA для легковесной и удобной интеграции.
- FLUX.1 Redux
IP-адаптер, обеспечивающий управление стилем и деталями изображения. Полезен для гибкой кастомизации результатов генерации.
🔗 [Подробнее о FLUX](https://blackforestlabs.ai/flux-1-tools/)
🔗 [Репозиторий на GitHub](https://github.com/black-forest-labs/flux)
Black Forest Labs представили
### 🚀 Состав набора:
- FLUX.1 Fill
Инструмент для inpainting и outpainting. Позволяет дополнять или перерисовывать части изображения с высокой точностью.
- FLUX.1 Depth и FLUX.1 Canny
Модули ControlNet для управления глубиной и контурами изображений. Доступны в формате LoRA для легковесной и удобной интеграции.
- FLUX.1 Redux
IP-адаптер, обеспечивающий управление стилем и деталями изображения. Полезен для гибкой кастомизации результатов генерации.
🔗 [Подробнее о FLUX](https://blackforestlabs.ai/flux-1-tools/)
🔗 [Репозиторий на GitHub](https://github.com/black-forest-labs/flux)
Generative Ai
⚡ FLUX: расширение инструментов для генерации и редактирования изображений ⚡ Black Forest Labs представили ### 🚀 Состав набора: - FLUX.1 Fill Инструмент для inpainting и outpainting. Позволяет дополнять или перерисовывать части изображения с высокой…
💡 ComfyUI: моментальная поддержка FLUX-инструментов 💡
Команда ComfyUI уже внедрила обновления! Теперь пользователи ComfyUI могут легко интегрировать FLUX.1 Fill, Depth, Canny и Redux для улучшения своих рабочих процессов.
### 🔑 Что нового?
- Поддержка FLUX.1 Fill
Расширение возможностей inpainting и outpainting для точного редактирования изображений прямо в интерфейсе ComfyUI.
- Контур и глубина (Depth/Canny)
Используйте FLUX.1 Depth и FLUX.1 Canny для работы с глубинными картами и контурами. Полная интеграция модулей ControlNet позволяет работать с этими инструментами на лету.
- IP-адаптер (FLUX.1 Redux)
Новый уровень контроля стиля и детализации изображения теперь доступен прямо в ComfyUI.
### 🛠️ Преимущества интеграции:
- Удобная настройка инструментов через графический интерфейс ComfyUI.
- Полная поддержка LoRA для глубины и контуров.
- Быстрый старт без необходимости сложной настройки.
С этим обновлением ComfyUI становится еще мощнее для профессиональной генерации изображений!
🔗 [Подробнее о поддержке FLUX в ComfyUI](https://blog.comfy.org/day-1-support-for-flux-tools-in-comfyui/)
Команда ComfyUI уже внедрила обновления! Теперь пользователи ComfyUI могут легко интегрировать FLUX.1 Fill, Depth, Canny и Redux для улучшения своих рабочих процессов.
### 🔑 Что нового?
- Поддержка FLUX.1 Fill
Расширение возможностей inpainting и outpainting для точного редактирования изображений прямо в интерфейсе ComfyUI.
- Контур и глубина (Depth/Canny)
Используйте FLUX.1 Depth и FLUX.1 Canny для работы с глубинными картами и контурами. Полная интеграция модулей ControlNet позволяет работать с этими инструментами на лету.
- IP-адаптер (FLUX.1 Redux)
Новый уровень контроля стиля и детализации изображения теперь доступен прямо в ComfyUI.
### 🛠️ Преимущества интеграции:
- Удобная настройка инструментов через графический интерфейс ComfyUI.
- Полная поддержка LoRA для глубины и контуров.
- Быстрый старт без необходимости сложной настройки.
С этим обновлением ComfyUI становится еще мощнее для профессиональной генерации изображений!
🔗 [Подробнее о поддержке FLUX в ComfyUI](https://blog.comfy.org/day-1-support-for-flux-tools-in-comfyui/)
blog.comfy.org
Day 1 Support for Flux Tools in ComfyUI
We’re thrilled to share that ComfyUI now supports 3 series of new models from Black Forest Labs designed for Flux.1: the Redux Adapter, Fill Model, ControlNet Models & LoRAs (Depth and Canny).
🚀 Sana: новая модель для генерации 4K-изображений от NVIDIA 🚀
Sana — революционная генеративная модель от NVIDIA, обеспечивающая эффективную генерацию изображений высокого разрешения (до 4K) благодаря инновационной архитектуре.
### 🔑 Ключевые компоненты:
- 🟢 Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, минимизируя число латентных токенов. Это ускоряет обучение и делает возможной генерацию изображений сверхвысокого разрешения.
- 🟢 Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию 4K-изображений в 1.7 раза. Вместо стандартного MLP-FFN применяет Mix-FFN (свёртка 3x3 и Gated Linear Unit), что позволяет отказаться от позиционного кодирования без потери качества.
- 🟢 Decoder-only Small LLM as Text Encoder
Основан на LLM Gemma, что улучшает интерпретацию текстовых запросов. Точные и понятные описания пользователя преобразуются в реалистичные визуальные результаты.
### 🎨 Почему Sana?
1. Оптимизация генерации: Быстрее, меньше вычислительных затрат, без снижения качества.
2. 4K-графика: Полный контроль над деталями изображения.
3. Интеллектуальный текстовый энкодер: Максимально точный перенос задумки пользователя в изображение.
🔗 [Демо и описание модели Sana](https://nvlabs.github.io/Sana/)
Sana — революционная генеративная модель от NVIDIA, обеспечивающая эффективную генерацию изображений высокого разрешения (до 4K) благодаря инновационной архитектуре.
### 🔑 Ключевые компоненты:
- 🟢 Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, минимизируя число латентных токенов. Это ускоряет обучение и делает возможной генерацию изображений сверхвысокого разрешения.
- 🟢 Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию 4K-изображений в 1.7 раза. Вместо стандартного MLP-FFN применяет Mix-FFN (свёртка 3x3 и Gated Linear Unit), что позволяет отказаться от позиционного кодирования без потери качества.
- 🟢 Decoder-only Small LLM as Text Encoder
Основан на LLM Gemma, что улучшает интерпретацию текстовых запросов. Точные и понятные описания пользователя преобразуются в реалистичные визуальные результаты.
### 🎨 Почему Sana?
1. Оптимизация генерации: Быстрее, меньше вычислительных затрат, без снижения качества.
2. 4K-графика: Полный контроль над деталями изображения.
3. Интеллектуальный текстовый энкодер: Максимально точный перенос задумки пользователя в изображение.
🔗 [Демо и описание модели Sana](https://nvlabs.github.io/Sana/)
🔉 Crisper Whisperer: новая версия Whisper с акцентом на сверхточную транскрипцию речи 🎙️
Crisper Whisperer — это обновлённая модель на базе Whisper Large-V2, оптимизированная для максимальной точности автоматического распознавания речи (ASR). Она выделяется способностью фиксировать даже мельчайшие детали произнесённого текста: вводные слова, паузы, заикания и эмоциональные нюансы.
📌 Особенности
- 🏆 Точность на уровне лидеров рынка: входит в топ открытого ASR-лидерборда Hugging Face.
- 💬 Подробная транскрипция: передаёт все звуковые детали речи, вплоть до междометий.
- 🔧 Фокус на real-world применениях: идеально для задач, где нужна 100% передача смысла (медицина, стенография, юридические записи).
- 📈 Оптимизация под практическое использование: снижены ресурсоёмкость и увеличена стабильность.
🔗 [Модель и чекпоинты](https://huggingface.co/nyrahealth/CrisperWhisper)
🔗 [ASR-лидерборд](https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)
Crisper Whisperer — это обновлённая модель на базе Whisper Large-V2, оптимизированная для максимальной точности автоматического распознавания речи (ASR). Она выделяется способностью фиксировать даже мельчайшие детали произнесённого текста: вводные слова, паузы, заикания и эмоциональные нюансы.
📌 Особенности
- 🏆 Точность на уровне лидеров рынка: входит в топ открытого ASR-лидерборда Hugging Face.
- 💬 Подробная транскрипция: передаёт все звуковые детали речи, вплоть до междометий.
- 🔧 Фокус на real-world применениях: идеально для задач, где нужна 100% передача смысла (медицина, стенография, юридические записи).
- 📈 Оптимизация под практическое использование: снижены ресурсоёмкость и увеличена стабильность.
🔗 [Модель и чекпоинты](https://huggingface.co/nyrahealth/CrisperWhisper)
🔗 [ASR-лидерборд](https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)
huggingface.co
nyrahealth/CrisperWhisper · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 LTX Video: генерация видео
Lightricks представили LTX Video (LTXV) — open-source модель для генерации видео, работающую быстрее воспроизведения. В основе технологии — энкодер с коэффициентом сжатия 1:192, обеспечивающий высокую согласованность движения.
### 🔑 Основные характеристики:
- 5 секунд видео (121 кадр, 768x512) за 2.5 секунды (20 шагов диффузии на H100).
- Компактная модель (2B параметров): отличные результаты без массивных архитектур.
- Оптимизация для GPU/TPU с PyTorch XLA.
- Эффективная работа на потребительских GPU (например, RTX 4090).
### 📌 Ресурсы:
- [GitHub](https://github.com/Lightricks/LTX-Video)
- [Hugging Face](https://huggingface.co/Lightricks/LTX-Video)
- [ComfyUI Nodes](https://github.com/Lightricks/ComfyUI-LTXVideo)
- [Playground](https://huggingface.co/spaces/Lightricks/LTX-Video-Playground)
🔗 [Подробнее на сайте Lightricks](https://www.lightricks.com/ltxv)
Lightricks представили LTX Video (LTXV) — open-source модель для генерации видео, работающую быстрее воспроизведения. В основе технологии — энкодер с коэффициентом сжатия 1:192, обеспечивающий высокую согласованность движения.
### 🔑 Основные характеристики:
- 5 секунд видео (121 кадр, 768x512) за 2.5 секунды (20 шагов диффузии на H100).
- Компактная модель (2B параметров): отличные результаты без массивных архитектур.
- Оптимизация для GPU/TPU с PyTorch XLA.
- Эффективная работа на потребительских GPU (например, RTX 4090).
### 📌 Ресурсы:
- [GitHub](https://github.com/Lightricks/LTX-Video)
- [Hugging Face](https://huggingface.co/Lightricks/LTX-Video)
- [ComfyUI Nodes](https://github.com/Lightricks/ComfyUI-LTXVideo)
- [Playground](https://huggingface.co/spaces/Lightricks/LTX-Video-Playground)
🔗 [Подробнее на сайте Lightricks](https://www.lightricks.com/ltxv)