3 вещи которые нужно знать про Visual Transformers:
1. Residual слои ViT можно эффективно распараллелить, на точности это практически не скажется
2. Для адаптации ViT к более высокому разрешению и к другим задачам классификации достаточно файнтюнинга слоев внимания.
3. Добавление слоев предварительной обработки патчей на основе MLP улучшает self-supervised обучение по типу BERT (на основе маскировки патчей)
📝 Статья
#transformer #vit
1. Residual слои ViT можно эффективно распараллелить, на точности это практически не скажется
2. Для адаптации ViT к более высокому разрешению и к другим задачам классификации достаточно файнтюнинга слоев внимания.
3. Добавление слоев предварительной обработки патчей на основе MLP улучшает self-supervised обучение по типу BERT (на основе маскировки патчей)
📝 Статья
#transformer #vit