Generative Ai
3.45K subscribers
263 photos
99 videos
7 files
794 links
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT

По рекламе писать @miralinka,
Created by @life2film
Download Telegram
Forwarded from Machinelearning
🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource.

Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.

▶️ Ключевые особенности версии 1.3.0:

🟢Улучшенный вариационный автоэнкодер WF-VAE
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.

🟢Skiparse (Skip-Sparse) Attention
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.

🟢Новая стратегия очистки данных
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.

🟢Динамическое разрешение и длительность.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.

⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.

▶️ Подробные инструкции по установке, обучению и инференсу в режимах
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.


📌Лицензирование: MIT License.


🟡Модель
🟡Сообщество в Discord
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #OpenSora #Text2Video #Image2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Life2film
Media is too big
VIEW IN TELEGRAM
Тизер sci-fi сериала Azaliia - про роботов клонов.
Дочь хотела стать актрисой, а я режиссером! 😊

А точнее, начинаю серию экспериментов, возможно ли AI Filmmaking с использованием различных новых инструментов с упором на Open Source.

Картинки и история сделаны в сервисе SuperDuperAi.co - используется FLUX для визуализации скрипта и Lora модель для актеров (натренирована на фотографиях дочери).
Потом картинки прогнал через image2video COG в ComfyUI, а для sound design использовал Stable Audio 1.0.

По мере реализации буду выкладывать результаты в канале @life2film.

Рад буду идеям для улучшения или колобрации.
Forwarded from Life2film
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Опубликована модель Stable diffusion 3.5 Medium.

Stability AI, следуя своему анонсу, выпустила в открытый доступ младшую text-to-image модель семейства Stable diffusion 3.5 - Medium c 2.6 млрд. параметров.

Модель позиционируется в семействе SD 3.5 как решение для работы на потребительском оборудовании.

SD 3.5 Medium способна генерировать изображения с разрешением от 0.25 до 2 мегапикселей, а для запуска с максимальной производительностью ей требуется всего 9.9 Gb VRAM.

Stable Diffusion 3.5 Medium претерпела ряд изменений в архитектуре (MMDiT-X вместо MMDiT ) и протоколах обучения для корреляции качества с числом параметров, связности и возможности генерации изображений с различным разрешением.

SD 3.5 Medium прошла обучение на разрешениях от 256 до 1440 пикселей.

Текстовые энкодеры не претерпели изменений, остались те же, что и у Stable Diffusion 3.5 Large: OpenCLIP-ViT/G, CLIP-ViT/L и T5-xxl.

Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или или Diffusers.

▶️Локальный запуск инференса на Diffusers:

# install Diffusers
pip install -U diffusers


# Inference
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")


📌Лицензирование:

🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.

🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


#AI #ML #Diffusion #SD3_5Medium #StabilityAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Технологии | Нейросети | Боты
Media is too big
VIEW IN TELEGRAM
🎬 Новый опенсорс видеогенератор — Allegro.

Он умеет генерировать видео 720p в 15fps, пока только text-2-video. В будущем планируют завезти image-2-video, контроль движений и создание видео на основе раскадровок.

Из плюсов — тут почти нет цензуры, ограничения минимальные, а для установки нужна карта с 9,3 ГБ памяти.

• Подробнее
• Github
• Huggingface

#neural #нейросети

@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Runway представила расширенные функции управления камерой в своей модели Gen-3 Alpha Turbo, значительно расширив возможности пользователей по созданию AI-генерированных видео. Теперь доступны точные настройки движений камеры, включая горизонтальные облеты вокруг объектов, динамические зумы и плавные перемещения камеры, что позволяет создавать более захватывающий и кинематографичный контент.

Для эффективного использования этих функций рекомендуется включать подробные инструкции по движению камеры в ваши текстовые запросы. Например, указание таких движений, как "tracking shot", "dolly shot" или "pan shot", поможет AI сгенерировать желаемый визуальный эффект. Кроме того, определение углов съемки, таких как "low angle", "high angle" или "overhead", позволит еще точнее настроить результат.
Forwarded from Ai Films
🌟 Runway запускает The Hundred Film Fund для поддержки фильмов, созданных с помощью ИИ! 🌟

Прекрасные новости для креативных профессионалов: Runway объявил о запуске The Hundred Film Fund — фонд объемом $5M (с возможностью увеличения до $10M) для создания и поддержки 100 фильмов с использованием технологий ИИ. Этот фонд открыт для проектов в различных форматах: полнометражные фильмы, короткометражки, музыкальные клипы, экспериментальные проекты и многое другое. 🎥💡

Подробности о финансировании:

Гранты от $5K до $1M+
Дополнительно $2M в виде кредитов Runway для награжденных проектов
🔹 Присоединяйтесь к лидерам индустрии
🔹 Среди участников консультационного совета – такие уважаемые специалисты, как Джейн Розенталь (Tribeca), Кристина Ли Сторм (Телевизионная академия) и Стефан Зонненфельд (Company 3), которые будут направлять и поддерживать выбранные проекты.

Кристина Ли Сторм поделилась: «Я рада быть в совете, чтобы помочь режиссерам по всему миру исследовать новые методы повествования с инструментами ИИ от Runway».

Вы режиссер, продюсер или сценарист, готовый рассказать новую историю с помощью технологий ИИ? Подавайте заявку

https://runwayml.com/news/hundred-film-fund
🚀 Docling: Мощный инструмент для анализа и преобразования документов 🚀

Docling — это гибкое и удобное решение для парсинга документов с поддержкой множества популярных форматов и легким экспортом в нужный формат. 💡

Основные возможности
🗂️ Поддержка популярных форматов документов (PDF, DOCX, PPTX, изображения, HTML, AsciiDoc, Markdown) с экспортом в Markdown и JSON
📑 Углубленный анализ PDF-документов, включая макет страниц, порядок чтения и таблицы
🧩 Унифицированный и выразительный формат DoclingDocument для представления данных
📝 Извлечение метаданных: заголовок, авторы, ссылки, язык и многое другое
🤖 Интеграция с LlamaIndex 🦙 и LangChain для мощных RAG / QA приложений
🔍 Поддержка OCR для сканированных PDF
💻 Удобный интерфейс CLI

https://github.com/DS4SD/docling
Forwarded from Derp Learning
Для mochi запилили редактор mochi comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!

Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).

comfyui mochiedit
comfyui mochiwrapper
models

@derplearning
Instructor: Самая популярная библиотека для структурированных выводов LLM

Instructor — это ведущая библиотека Python для работы со структурированными выводами крупных языковых моделей (LLM), с более чем 600,000 загрузками в месяц. Построенная на основе Pydantic, она предлагает простой, понятный и удобный API для управления валидацией, повторами запросов и потоковыми ответами. С этой библиотекой ваши LLM-процессы станут намного эффективнее!

🚀 Основные возможности

* Модели ответов: Определяйте структуру выводов LLM, используя модели Pydantic
* Управление повторами: Легко настройте количество попыток для стабильности запросов
* Валидация: Убедитесь, что ответы LLM соответствуют вашим требованиям
* Поддержка потоков: Работайте с списками и частичными ответами без лишних сложностей
* Гибкие бэкенды: Интегрируйтесь с разными LLM-поставщиками, не ограничиваясь только OpenAI


https://github.com/instructor-ai/instructor
Media is too big
VIEW IN TELEGRAM
🎥 X-Portrait 2 от ByteDance: анимация статичных изображений с высокой точностью

Что нового
X-Portrait 2 — продвинутая AI-модель от ByteDance, преобразующая статичные портреты в реалистичные анимации, добавляя динамичные выражения лица на основе одного референсного видео. Технология точно захватывает и переносит тончайшие выражения, такие как гримасы, мимика и даже движение языка.

Ключевые возможности
- Анимация с детализированной мимикой: перенос мимики с видео на фото, включая мелкие движения лица.
- Высокая точность движений: распознает и обрабатывает сложные выражения, передавая даже минимальные изменения.
- Поддержка различных стилей: совместима с реалистичными и мультяшными изображениями, что расширяет её использование в анимации и создании виртуальных аватаров.

Применение
Подходит для создания анимации в кино, играх, на платформах вроде TikTok как бесплатная альтернатива платным решениям для аватаров. Доступна на сайте ByteDance.

🔗 [X-Portrait 2](https://byteaigc.github.io/X-Portrait2/)
Forwarded from Machinelearning
🌟 TIPO: Оптимизация текстовых промптов для text-2-image моделей.

TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.

TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.

Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.

TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.

Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.

🟢TIPO-200M;

🟢TIPO-500M.

▶️ Использование TIPO доступно в качестве расширения к stable-diffusion-webui, Forge UI и ComfyUI. Все подробности по установке расширений и использованию в ComfyUI можно найти в репозитории проектка Z-TIPO-extension.


📌Лицензирование : Kohaku License 1.0


🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #T2I #TIPO #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
📌Руководство по эффективному использованию промптов для LLM от разработчиков из GoogleDeepMind.

Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.

В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.

Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.

▶️ Содержание:

🟢Для кого предназначен этот документ?
🟢Зачем нужно это руководство?
🟢Background трейна: предварительная и последующая подготовка
🟢Рекомендации по промптам
🟢Рудиментарное "руководство по стилю" для промптов
🟢Процедура итерации новых системных инструкций
🟢Некоторые мысли о том, когда полезна LLM
🟢Дополнительные ресурсы


📌Лицензирование: Creative Commons Attribution 4.0 International Public License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Prompt #Github #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Stable Diffusion 3.5 Prompt Guide: создание лучших промптов

Stability AI опубликовала детальное руководство по работе с Stable Diffusion 3.5, которое поможет генерировать более качественные изображения с минимальными усилиями. ✍️

Что внутри:
- Основы создания промптов: как правильно формулировать запросы.
- Примеры для разных стилей: от реализма до сюрреализма.
- Рекомендации по использованию negative prompts для устранения нежелательных элементов.
- Особенности 3.5-версии: улучшенная обработка текстовых описаний и деталей.
- Советы для настройки параметров, таких как CFG Scale, Steps и других.


🔗 [Stable Diffusion 3.5 Prompt Guide](https://stability.ai/learning-hub/stable-diffusion-3-5-prompt-guide?utm_medium)
💡 RAG-Diffusion: Трансформация текста и изображений в сложные сцены

### 🔑 Ключевые особенности
- Референсная генерация: Использует изображения и текстовые подсказки для формирования визуально и концептуально согласованных сцен.
- Фрагментарная композиция: Позволяет указывать различные компоненты сцены отдельно, используя несколько текстовых описаний.
- Точные детали: Высокое качество генерации даже при сложных сценах благодаря кросс-энкодеру для мультимодальной фьюзии.

### 🖥️ Применение
- Генерация контента для фильмов, игр и AR/VR-среды.
- Прототипирование сложных визуальных сценариев для дизайнеров.
- Использование в мультимодальных поисковых системах.


🔗 [GitHub](https://github.com/NJU-PCALab/RAG-Diffusion)
FLUX: расширение инструментов для генерации и редактирования изображений

Black Forest Labs представили

### 🚀 Состав набора:
- FLUX.1 Fill
Инструмент для inpainting и outpainting. Позволяет дополнять или перерисовывать части изображения с высокой точностью.

- FLUX.1 Depth и FLUX.1 Canny
Модули ControlNet для управления глубиной и контурами изображений. Доступны в формате LoRA для легковесной и удобной интеграции.

- FLUX.1 Redux
IP-адаптер, обеспечивающий управление стилем и деталями изображения. Полезен для гибкой кастомизации результатов генерации.


🔗 [Подробнее о FLUX](https://blackforestlabs.ai/flux-1-tools/)
🔗 [Репозиторий на GitHub](https://github.com/black-forest-labs/flux)
Generative Ai
FLUX: расширение инструментов для генерации и редактирования изображений Black Forest Labs представили ### 🚀 Состав набора: - FLUX.1 Fill Инструмент для inpainting и outpainting. Позволяет дополнять или перерисовывать части изображения с высокой…
💡 ComfyUI: моментальная поддержка FLUX-инструментов 💡

Команда ComfyUI уже внедрила обновления! Теперь пользователи ComfyUI могут легко интегрировать FLUX.1 Fill, Depth, Canny и Redux для улучшения своих рабочих процессов.

### 🔑 Что нового?
- Поддержка FLUX.1 Fill
Расширение возможностей inpainting и outpainting для точного редактирования изображений прямо в интерфейсе ComfyUI.

- Контур и глубина (Depth/Canny)
Используйте FLUX.1 Depth и FLUX.1 Canny для работы с глубинными картами и контурами. Полная интеграция модулей ControlNet позволяет работать с этими инструментами на лету.

- IP-адаптер (FLUX.1 Redux)
Новый уровень контроля стиля и детализации изображения теперь доступен прямо в ComfyUI.

### 🛠️ Преимущества интеграции:
- Удобная настройка инструментов через графический интерфейс ComfyUI.
- Полная поддержка LoRA для глубины и контуров.
- Быстрый старт без необходимости сложной настройки.

С этим обновлением ComfyUI становится еще мощнее для профессиональной генерации изображений!

🔗 [Подробнее о поддержке FLUX в ComfyUI](https://blog.comfy.org/day-1-support-for-flux-tools-in-comfyui/)
🚀 Sana: новая модель для генерации 4K-изображений от NVIDIA 🚀

Sana — революционная генеративная модель от NVIDIA, обеспечивающая эффективную генерацию изображений высокого разрешения (до 4K) благодаря инновационной архитектуре.

### 🔑 Ключевые компоненты:
- 🟢 Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, минимизируя число латентных токенов. Это ускоряет обучение и делает возможной генерацию изображений сверхвысокого разрешения.

- 🟢 Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию 4K-изображений в 1.7 раза. Вместо стандартного MLP-FFN применяет Mix-FFN (свёртка 3x3 и Gated Linear Unit), что позволяет отказаться от позиционного кодирования без потери качества.

- 🟢 Decoder-only Small LLM as Text Encoder
Основан на LLM Gemma, что улучшает интерпретацию текстовых запросов. Точные и понятные описания пользователя преобразуются в реалистичные визуальные результаты.

### 🎨 Почему Sana?
1. Оптимизация генерации: Быстрее, меньше вычислительных затрат, без снижения качества.
2. 4K-графика: Полный контроль над деталями изображения.
3. Интеллектуальный текстовый энкодер: Максимально точный перенос задумки пользователя в изображение.

🔗 [Демо и описание модели Sana](https://nvlabs.github.io/Sana/)
🔉 Crisper Whisperer: новая версия Whisper с акцентом на сверхточную транскрипцию речи 🎙️

Crisper Whisperer — это обновлённая модель на базе Whisper Large-V2, оптимизированная для максимальной точности автоматического распознавания речи (ASR). Она выделяется способностью фиксировать даже мельчайшие детали произнесённого текста: вводные слова, паузы, заикания и эмоциональные нюансы.

📌 Особенности
- 🏆 Точность на уровне лидеров рынка: входит в топ открытого ASR-лидерборда Hugging Face.
- 💬 Подробная транскрипция: передаёт все звуковые детали речи, вплоть до междометий.
- 🔧 Фокус на real-world применениях: идеально для задач, где нужна 100% передача смысла (медицина, стенография, юридические записи).
- 📈 Оптимизация под практическое использование: снижены ресурсоёмкость и увеличена стабильность.


🔗 [Модель и чекпоинты](https://huggingface.co/nyrahealth/CrisperWhisper)
🔗 [ASR-лидерборд](https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 LTX Video: генерация видео

Lightricks представили LTX Video (LTXV) — open-source модель для генерации видео, работающую быстрее воспроизведения. В основе технологии — энкодер с коэффициентом сжатия 1:192, обеспечивающий высокую согласованность движения.

### 🔑 Основные характеристики:
- 5 секунд видео (121 кадр, 768x512) за 2.5 секунды (20 шагов диффузии на H100).
- Компактная модель (2B параметров): отличные результаты без массивных архитектур.
- Оптимизация для GPU/TPU с PyTorch XLA.
- Эффективная работа на потребительских GPU (например, RTX 4090).

### 📌 Ресурсы:
- [GitHub](https://github.com/Lightricks/LTX-Video)
- [Hugging Face](https://huggingface.co/Lightricks/LTX-Video)
- [ComfyUI Nodes](https://github.com/Lightricks/ComfyUI-LTXVideo)
- [Playground](https://huggingface.co/spaces/Lightricks/LTX-Video-Playground)

🔗 [Подробнее на сайте Lightricks](https://www.lightricks.com/ltxv)