279K subscribers
3.94K photos
674 videos
17 files
4.53K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 mPLUG-Owl3: MMLM, которая может проанализировать 2 часа видео за 4 секунды.

Alibaba Group выпустила mPLUG-Owl3, общую мультимодальную модель на базе Qwen2, ориентированную на понимание нескольких изображений и длинных видео. По словам разработчиков, модель может проанализировать 2-часовой фильм всего за 4 секунды.
mPLUG-Owl3 сокращает время ожидания первого токена в 6 раз и увеличивает возможность обработки изображений, обрабатываемых одним GPU A100 до 400 штук в секунду.

Архитектура mPLUG-Owl3 состоит из визуального кодировщика, линейного проекционного слоя и декодера языковой модели.
Ключевая особенность mPLUG-Owl3 - блоки Hyper Attention Transformer (HATB), которые включают перекрестное внимание между визуальными и текстовыми признаками, благодаря чему модель адаптивно выбирает и извлекает релевантную визуальную информацию на основе текстовой семантики.

Технические характеристики модели:

🟢Number of parameters - 8B;
🟢Context size - 4096 (SFT, Video, Multi-image);
🟢Number of Layers - 40;
🟢Visual Encoder - Siglip-400m;
🟢High-Resolution Image Processing - UReader.


▶️Установка и запуск GradioUI:

# Clone repository
https://github.com/X-PLUG/mPLUG-Owl.git

# Navigate to OWL3 folder
cd mPLUG-Owl3

# Install the dependencies
pip install -r requirements.txt

# Execute the demo
python gradio_demo.py



📌Лицензирование кода : MIT license.

📌Лицензирование моделей: Apache 2.0 License.



🟡Model
🟡Arxiv
🟡Demo
🖥Github [ Stars: 2.1K | Issues: 89 | Forks: 169]


@ai_machinelearning_big_data

#AI #OWL3 #MMLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3111🔥6🎉1