Machinelearning

🌟 mPLUG-Owl3: MMLM, которая может проанализировать 2 часа видео за 4 секунды.

Alibaba Group выпустила mPLUG-Owl3, общую мультимодальную модель на базе Qwen2, ориентированную на понимание нескольких изображений и длинных видео. По словам разработчиков, модель может проанализировать 2-часовой фильм всего за 4 секунды.
mPLUG-Owl3 сокращает время ожидания первого токена в 6 раз и увеличивает возможность обработки изображений, обрабатываемых одним GPU A100 до 400 штук в секунду.

Архитектура mPLUG-Owl3 состоит из визуального кодировщика, линейного проекционного слоя и декодера языковой модели.
Ключевая особенность mPLUG-Owl3 - блоки Hyper Attention Transformer (HATB), которые включают перекрестное внимание между визуальными и текстовыми признаками, благодаря чему модель адаптивно выбирает и извлекает релевантную визуальную информацию на основе текстовой семантики.

Технические характеристики модели:

🟢Number of parameters - 8B;
🟢Context size - 4096 (SFT, Video, Multi-image);
🟢Number of Layers - 40;
🟢Visual Encoder - Siglip-400m;
🟢High-Resolution Image Processing - UReader.

▶️Установка и запуск GradioUI:

# Clone repository
https://github.com/X-PLUG/mPLUG-Owl.git

# Navigate to OWL3 folder
cd mPLUG-Owl3

# Install the dependencies
pip install -r requirements.txt

# Execute the demo
python gradio_demo.py