Machinelearning

⚡️ InternVideo2: две VLM для аннотирования и QA видео.

OpenGVLab опубликовала в открытом доступе 2 новые мультимодальные модели:

🟢

InternVideo2-Chat-8B

🟢

InternVideo2-Chat-8B-HD

InternVideo2 - это семейство моделей на базе Mistral-7B для работы с video-to-text и диалогах, ориентированных на контекст видео.

Семейство использует архитектуру Vision Transformer (ViT) и получило дополнительные слои для улучшения обучения и использует attention pooling для понимания временных последовательностей и действий в видео. Каждая модель проходит три этапа обучения, чтобы улучшить свое понимание видео и способность выполнять сложные задачи.

На первом этапе обучения модель учится восстанавливать видео-токены, которые были удалены. Затем она учится согласовывать видео-представления с семантикой из других модальностей, таких как аудио, речь и текст. Наконец, модель обучается на видео-центричных входных данных и подключается к LLM (Mistral-7B) для предсказания следующего токена.
Такая конфигурация дает способность выполнять задачи, такие как ответы на вопросы о видео и описывать сложные видео-сценарии.

Различие моделей 8B и 8B-HD в том, что 8B-HD, как видно из названия, обучалась на наборах данных высокого разрешения. Суммарная плотность 8B - это 7B от LLM + 1B от самой InternVideo-1B.

Подробную инструкцию по инференсу можно найти в карточки модели на HF. UI версии пока нету.

📌Лицензирование : MIT license

🟡

🟡

🟡

🟡

🖥

Github [ Stars: 1.2K | Issues: 65 | Forks: 76]

@ai_machinelearning_big_data

#AI #VLM #ML #VideoQA #Video2Text

Please open Telegram to view this post

VIEW IN TELEGRAM