Multiscale Vision Transformers
Facebook AI выпустили Multiscale Vision Transformers (MViT).
Сеть используют для representation learning (на изображения и видео). MViT относится к семейству моделей пользующихся иерархическими представлениями (по заветам D.H. Hubel и T.N. Wiesel, разработавших иерархическую модель человеческого зрения в 60х годах).
Почему это важно:
MViT - это значительное улучшение по сравнению с предыдущими попытками понимания видео Трансформерами.
Блог-пост
GitHub
#transformer #images #video #SSL #representationLearning
Facebook AI выпустили Multiscale Vision Transformers (MViT).
Сеть используют для representation learning (на изображения и видео). MViT относится к семейству моделей пользующихся иерархическими представлениями (по заветам D.H. Hubel и T.N. Wiesel, разработавших иерархическую модель человеческого зрения в 60х годах).
Почему это важно:
MViT - это значительное улучшение по сравнению с предыдущими попытками понимания видео Трансформерами.
Блог-пост
GitHub
#transformer #images #video #SSL #representationLearning