AI Для Всех
12.2K subscribers
1.05K photos
133 videos
10 files
1.33K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Media is too big
VIEW IN TELEGRAM
End-to-End Referring Video Object Segmentation with Multimodal Transformers

Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.

В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.

Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).

📎 Статья
🖥 Код

#multimodal #video #transformer #text #segmentation