Forwarded from Мишин Лернинг 🇺🇦🇮🇱
🤖🏆 SimVLM — Новый CLIP
Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод
А самое главное, делать все это в режиме zero-shot (обучение без обучения)!
Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).
Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.
SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.
Скоро сделаю подробный обзор архитектуры.
📄 paper
#sota #paper #multimodal #zeroshot #сохраненки
Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод
А самое главное, делать все это в режиме zero-shot (обучение без обучения)!
Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).
Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.
SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.
Скоро сделаю подробный обзор архитектуры.
📄 paper
#sota #paper #multimodal #zeroshot #сохраненки
Zero-Shot Open Set Detection Based on a Pretrained Language-Vision Model
В задаче на классификацию неограниченных классов сэмплы известных классов (также называемых классами закрытого множества) используются для обучения классификатора. При тестировании классификатор может (1) отнести образцы известных классов к соответствующим классам и (2) определить образцы, которые не принадлежат ни к одному из известных классов (мы говорим, что они принадлежат к некоторым открытым классам).
В работе предлагается метод (ZO-CLIP) для решения проблемы открытой классификации. ZO-CLIP основывается на достижениях в области классификации Zero-Shot с помощью обучения мультимодальному представлению данных (multimodal representation). Сначала он расширяет предварительно обученную модель CLIP, обучая генератор текстовых описаний изображений поверх CLIP. При тестировании ZO-CLIP использует модель для генерации названий неизвестных классов-кандидатов для каждого тестового образца.
Статья
#images #CLIP #multimodal #zeroshot
В задаче на классификацию неограниченных классов сэмплы известных классов (также называемых классами закрытого множества) используются для обучения классификатора. При тестировании классификатор может (1) отнести образцы известных классов к соответствующим классам и (2) определить образцы, которые не принадлежат ни к одному из известных классов (мы говорим, что они принадлежат к некоторым открытым классам).
В работе предлагается метод (ZO-CLIP) для решения проблемы открытой классификации. ZO-CLIP основывается на достижениях в области классификации Zero-Shot с помощью обучения мультимодальному представлению данных (multimodal representation). Сначала он расширяет предварительно обученную модель CLIP, обучая генератор текстовых описаний изображений поверх CLIP. При тестировании ZO-CLIP использует модель для генерации названий неизвестных классов-кандидатов для каждого тестового образца.
Статья
#images #CLIP #multimodal #zeroshot