Generative Ai

0:40

0:28

0:36

0:32

0:30

Демо-версия продукта, уже можно переходить по ссылке и тестить. https://demo.superduperai.co

Как это работает?

Добавили выбор шаблона: история, стартап, музыкальный клир, образовательное видео, сказки, недвижимость, кастомное видео.

Выбираете шаблон, пишите промпт и получаете готовый скрипт с актами и сценами. Если вас не устраивает сценарий, его можно отредактировать прямо на месте.

Дальше выбираете длительность готового видео, формат и скорость воспроизведения.

Можно загрузить фото и получить героя с вашим лицом. Или фото стиля, и получить видео в этом стиле.

Далее запустите процесс генерации видео и получите готовое видео. Пока на этой же странице, поэтому не закрывайте ее. Ждать придется 5-7 минут.

🔗 Попробуйте демо-версию сейчас!
Обратную связь не забудьте оставить в комментариях.

* Обязательна регистрация на сайте.
** Если хотите сделать несколько видео одновременно, можно просто открыть несколько вкладок, даже в одном браузере и делать нужное количество видео.

Go, эксперементировать!

1.4K views11:29

GitHub

@ai_machinelearning_big_data

Forwarded from Machinelearning

⚡️

Встречайте Kolors — диффузионная модель для генерации изображений с упором на фотореализм

Kolors — это большая диффузионная модель, опубликованная вчера командой Kuaishou Kolors.

Kolors была обучена на миллиардах пар "текст-изображение" и показывает отличные результаты в генерации сложных фотореалистичных изображений.

По результатам оценки 50 независимых экспертов, модель Kolors генерирует более реалистчиные и красивые изображения, чем Midjourney-v6, Stable Diffusion 3, DALL-E 3 и другие модели

🟡

Страничка Kolors

🟡

Попробовать

🖥

Please open Telegram to view this post

VIEW IN TELEGRAM

1.6K views07:06

Forwarded from эйай ньюз

🔥Mastering LLMs: Открытый курс по LLM от практиков

Я заметил, что очень хорошо разлетелся пост с ноутбуком для файнтюна LLaMa 3.1 в колабе. Поэтому принес вам еще имбовый курс по LLM от практиков для практиков. Он будет актуален для технических специалистов (включая инженеров и DS-ов), которые имеют некоторый опыт работы с LLM, да, я думаю, и для начинающих практиков он тоже хорошо зайдет.

Это набор лекций, которые покрывают такие прикладные темы как RAG, файн-тюнинг, промпт-инжиниринг, оценка качества моделей и прочее. Курс уникальный, потому что лекции ведут 25+ разных опытных чуваков из индустрии, которые являются экспертами по соответсвующим темам. Там ребята из Pytorch (Meta), Anthropic, Mistral, Fireworks-ai и других компаний.

Курс очень хорошо оформлен. К каждой лекции идут слайды, заметки, дополнительные ресурсы со ссылками и полный транскрипт видео.

Минимальные требования, чтобы успешно смотреть курс:
- Базовое знакомство с LLM-ками.
- Если такого опыт у вас нет, то рекомендуется начать с видео A Hacker’s Guide to LLMs от Джереми Ховарда, а также пройти туториал об Instruction Tuning LlaMa-2.

> Ссылка на курс: https://parlance-labs.com/education/

Давайте еще накидаем в комментах другие классные курсы по NLP, которые вы сами смотрели/проходили.

#ликбез
@ai_newz

1.7K views06:03

Forwarded from эйай ньюз

🔥

Black Forest Labs: новая лаба, которая будет двигать опенсорс image и видео генерацию! И новая SOTA 12B t2i модель!

Ядро команды состоит из авторов Stable Diffusion, которые покинули Stability-ai в марте. Как я и думал, они ушли и создали свою компанию!

Парни за эти несколько месяцев обучили text2image модель FLUX.1 на 12 B параметров! Которая на сегодня является SOTA моделью в открытом доступе! По предоставленным бенчам бьет даже MJ6!

Кажется, делали FLUX.1 по рецепту SD3, т.к. она имеет очень похожую архитектуру (DiT с двумя стримами - текст и картинка) и также основана на Flow Matching.

FLUX.1 вышла в 3 вариантах:

1️⃣

FLUX.1 [pro]: СОТА модель на 12B параметром. Все как надо - хорошая детализация изображений и фледование промпту, разные стили.
Доступна только через API:
- https://replicate.com/black-forest-labs
- https://fal.ai/models/fal-ai/flux-pro (дают даже бесплатно потыкать)

2️⃣

FLUX.1 [dev]: Это дистиллированная чезе Guidance Distillation модель FLUX.1 [pro], которая в ~2 раза быстрее оригинала, и выдает почти такое же качество.
Демо:
- https://fal.ai/models/fal-ai/flux/dev
Веса (Non-Commercial License):
- https://huggingface.co/black-forest-labs/FLUX.1-dev

3️⃣

FLUX.1 [schnell]: Это быстра версия. По все видимости, это дистиллированная с помощью LADD (пост) модель FLUX.1 [pro], которая работает за малое число шагов (от 1 до 12), но с качеством похуже.
Веса (Apache 2.0 License):
- https://huggingface.co/black-forest-labs/FLUX.1-schnell

Репа с кодом
Блогпост

Следуюшим шагом парни хотят выпустить SOTA text2video в опенсорс.

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2.1K views17:14

Forwarded from Технологии | Нейросети | Боты

1:50

📚

Перевод речи в рилтайме.

Babelfish — нейросеть на базе OpenAI Whisper, которая быстро и точно распознает речь и переведет её на 200 языков с помощью Meta's NLLB-200. И всё это прямо в браузере.

• Попробовать
• Github

#neural #нейросети

@aiaiai

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K views02:26

Forwarded from Технологии | Нейросети | Боты

0:34

❌

Убираем фон с изображения.

BiRefNet — новый инструмент для быстрого удаления фона. Разработчики утверждают, что он на голову лучше конкурентов.

Проверить самим можно уже сейчас, бесплатно и без лимитов.

• Github
• Попробовать

#neural #нейросети

@aiaiai

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K views22:58

Forwarded from Machinelearning

🌟 Clapper: Альфа-версия комбайна для визуализации генеративных сценариев.

Clapper - это инструмент визуализации историй, разрабатываемый как пет-проект сотрудником Huggingface Julian Bilcke

Созданный год назад, Clapper не предназначен для замены традиционных видеоредакторов или AI-редакторов, использующих 3D-сцены в качестве исходного материала.
Философия Clapper заключается в том, чтобы каждый мог создавать видео с помощью GenAI-инструментов посредством интерактивного, итеративного и интуитивного процесса, без необходимости использования разных интерфейсов, навыков режиссуры или AI-инженерии.

В Clapper вы не редактируете последовательность видео- и аудиофайлов напрямую, а итерируете (с помощью вашего помощника ИИ) свою историю, используя высокоуровневые абстракции, такие как персонажи, места, погода, временной период, стиль и т. д.

Конечной целью проекта заявлен полностью режиссерский режим, с которым вы можете просто перевести видео в полноэкранный режим, удобно расположиться в режиссерском кресле (или на диване) и, произнося голосом команды своему AI-ассистенту для создания вашего фильма, насладитесь созданным лично Вами шедевром.

⚠️ Это альфа-версия инструмента, который разрабатывают 3 человека. Не стоит ожидать от этого открытого проекта революционных результатов.

Clapper поддерживает интеграцию по API с локальными системами (ComfyUI) и он-лайн сервисами:
HuggingFace, Replicate, ComfuICU, FalAI, ModelsLab, OpenAI, Groq, Google, Anthropic, Cohere, MistralAI, StabilityAI, ElevenLabs, KitsAI.

Проект написан на TypeScript. Необходимые условия перед установкой:

🟠

Git LFS;

🟠

Bun;

🟠

NVM;
🟢Версия Node - 20.15.1.

▶️Установка и запуск:

# Install the dependencies:
# --include=optional to make 
# sure deps are installed
bun i

# build the app:
npm run build

# Running the web app:
bun run dev
# first time you go to localhost:3000
# Wait around 1 minute, the app will compile

▶️Второй вариант запуска, с Electron (еще в процессе разработки):

cd packages/app
bun run electron:start

# You can also build Clapper:
cd packages/app
bun run electron:make

📌Лицензирование : GPL v3 licenсe.

🟡

Сообщество в Discord

🟡

Demo

🖥

Github [ Stars: 1.5K | Issues: 15 | Forks: 129]

@ai_machinelearning_big_data

#AI #Storytelling #Clapper #Visialtool

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.5K views17:29

Forwarded from эйай ньюз

А вот и первый IP-Adapter для FLUX.1 [dev] подъехал

IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.

Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.

Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.

Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.

Это только первая версия адаптера, поэтому может быть еще сыровата.

Веса на HF
Воркфлоу для Comfy UI

@ai_newz

1.6K views10:09

Forwarded from SuperDuperAi

0:32

0:44