192K subscribers
3.48K photos
500 videos
17 files
4.23K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ InternVideo2: две VLM для аннотирования и QA видео.

OpenGVLab опубликовала в открытом доступе 2 новые мультимодальные модели:

🟢InternVideo2-Chat-8B
🟢InternVideo2-Chat-8B-HD

InternVideo2 - это семейство моделей на базе Mistral-7B для работы с video-to-text и диалогах, ориентированных на контекст видео.

Семейство использует архитектуру Vision Transformer (ViT) и получило дополнительные слои для улучшения обучения и использует attention pooling для понимания временных последовательностей и действий в видео. Каждая модель проходит три этапа обучения, чтобы улучшить свое понимание видео и способность выполнять сложные задачи.

На первом этапе обучения модель учится восстанавливать видео-токены, которые были удалены. Затем она учится согласовывать видео-представления с семантикой из других модальностей, таких как аудио, речь и текст. Наконец, модель обучается на видео-центричных входных данных и подключается к LLM (Mistral-7B) для предсказания следующего токена.
Такая конфигурация дает способность выполнять задачи, такие как ответы на вопросы о видео и описывать сложные видео-сценарии.

Различие моделей 8B и 8B-HD в том, что 8B-HD, как видно из названия, обучалась на наборах данных высокого разрешения. Суммарная плотность 8B - это 7B от LLM + 1B от самой InternVideo-1B.

Подробную инструкцию по инференсу можно найти в карточки модели на HF. UI версии пока нету.


📌Лицензирование :  MIT license


🟡Модель Chat-8B
🟡Модель Chat8B-HD
🟡Arxiv
🟡Demo Video
🖥Github [ Stars: 1.2K | Issues: 65 | Forks: 76]


@ai_machinelearning_big_data

#AI #VLM #ML #VideoQA #Video2Text
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM