AI Для Всех

Efficient Self-supervised Vision Transformers for Representation Learning (Microsoft)

В работе исследуются два метода разработки эффективных self supervised трансформеров для зрения (EsViT).

Во-первых, авторы показывают, что многоступенчатые архитектуры с разреженным self attention могут значительно снизить сложность моделирования, но ценой потери способности улавливать тонкие соответствия между областями изображения.

Во-вторых, предлагают новую задачу для предварительного обучения - сопоставление регионов. Это позволяет модели улавливать тонкие зависимости между регионами и, как следствие, значительно улучшает качество обучаемых представлений зрения (vision representations).

Комбинируя эти два метода, EsViT достигает 81,3% топ-1 в оценке linear probe ImageNet, превосходя предыдущие разработки примерно на порядок. При переносе на последующие задачи линейной классификации EsViT превосходит свой аналог под наблюдением на 17 из 18 наборов данных.

arXiv
GitHub

#SSL #images #transformer

185 viewsArtemii, edited 07:10

AI Для Всех

Simple Transformers

Очень классная библиотека для работы с трансформерами. Есть в том числе модели предобученные на научных текстах.

GitHub

#transformer #ScientificML

Simple Transformers

Using Transformer models has never been simpler! Built-in support for: Text Classification Token Classification Question Answering Language Modeling Language Generation Multi-Modal Classification Conversational AI Text Representation Generation

233 viewsDmitry Penzar, edited 16:06

About

Blog

Apps

Platform