Forwarded from Machinelearning
CogVideoX Factory - репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM. CogVideoX Factory позволяет выполнять обучение на GPU с 24 GB.
Проект предоставляет гибкость в выборе между LoRA и файнтюном всей модели для задач "text-to-video" и "IMG-to-video".
Чтобы сделать возможным файнтюн на ограниченных ресурсах, CogVideoX использует методы оптимизации:
CogVideoX Factory предлагает сценарии обучения:
train_text_to_video_lora.sh
;train_image_to_video_lora.sh
;train_text_to_video_sft.sh
.⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт
prepare_dataset.py
играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения.CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения.
@ai_machinelearning_big_data
#AI #ML #LoRA #T2V #IMG2V #Finetune
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥2
Forwarded from Machinelearning
Common Corpus - обширный открытый текстовый набор данных на 2 трлн. токенов. Набор разработан PleIAs в сотрудничестве с рядом партнёров и отличается от других датасетов высоким уровнем открытости и возможностью отслеживания происхождения данных.
В обновленную версию были включены материалы, не защищенные авторским правом или распространяемые на основе открытых лицензий.
Common Corpus содержит информацию объемом 10 млрд. токенов для каждого из 8 основных языков (английский, немецкий, французский, испанский, итальянский, польский, греческий и латынь) и 1 млрд. токенов для каждого из 33 дополнительных языка.
В состав Common Corpus входят научные публикации, правительственные и юридические документы, программный код и материалы культурного наследия - книги и газеты.
Все исходные данные для датасетов Common Corpus прошли тщательную модерацию, строгий отбор, коррекцию орфографических ошибок и удаление нежелательного или недостоверного контента.
Common Corpus соответствует положениям AI Act и предоставляет возможность обучения моделей, совместимых с принципами открытого ИИ и может быть использован в коммерческих и некоммерческих целях.
identifier
- уникальный идентификатор текстового документа;collection
- название коллекции, к которой относится документ;license
- информация о лицензии;date
- дата создания документа;title
- заголовок документа;creator
- автор или источник публикации;language
- язык документа;word_count
, token_count
- количественные показатели: число слов и токенов;text
- текстовое содержание документа.@ai_machinelearning_big_data
#AI #ML #Dataset #PlelAs #CommonCorpus
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥3👍1