AI Для Всех

Efficient Self-supervised Vision Transformers for Representation Learning (Microsoft)

В работе исследуются два метода разработки эффективных self supervised трансформеров для зрения (EsViT).

Во-первых, авторы показывают, что многоступенчатые архитектуры с разреженным self attention могут значительно снизить сложность моделирования, но ценой потери способности улавливать тонкие соответствия между областями изображения.

Во-вторых, предлагают новую задачу для предварительного обучения - сопоставление регионов. Это позволяет модели улавливать тонкие зависимости между регионами и, как следствие, значительно улучшает качество обучаемых представлений зрения (vision representations).

Комбинируя эти два метода, EsViT достигает 81,3% топ-1 в оценке linear probe ImageNet, превосходя предыдущие разработки примерно на порядок. При переносе на последующие задачи линейной классификации EsViT превосходит свой аналог под наблюдением на 17 из 18 наборов данных.

arXiv
GitHub

#SSL #images #transformer

185 viewsArtemii, edited 07:10

AI Для Всех

Simple Transformers

Очень классная библиотека для работы с трансформерами. Есть в том числе модели предобученные на научных текстах.

GitHub

#transformer #ScientificML

Simple Transformers

Using Transformer models has never been simpler! Built-in support for: Text Classification Token Classification Question Answering Language Modeling Language Generation Multi-Modal Classification Conversational AI Text Representation Generation

233 viewsDmitry Penzar, edited 16:06

AI Для Всех

SwinIR: Image Restoration Using Swin Transformer

Трансформер для повышения разрешения изображения.
На бенчмарках показывает себя хорошо

arXiv
GitHub

#transformer #denoising #images

203 viewsDmitry Penzar, edited 09:13

AI Для Всех

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers (Google AI)

Visual Transformers (ViT) показали, что они достигают высокой конкурентоспособности в широком спектре задач зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация. По сравнению со сверточными нейронными сетями, более слабый индуктивный баес трансформатора зрения обычно приводит к увеличению зависимости от регуляризации модели или аугментации данных ("AugReg" для краткости) при обучении на небольших наборах данных. В статье проводится систематическое эмпирическое исследование взаимосвязанности между количеством обучающих данных, AugReg, размером модели и вычислительным бюджетом.

В результате этого исследования обнаружили, что сочетание увеличения вычислительных ресурсов и AugReg может выдавать модели с такой же производительностью, что и модели, обученные на значительно большем количестве обучающих данных.

arXiv

#transformer #images #training #theory

218 viewsArtemii, edited 15:14

AI Для Всех

Новое видео от Яника о НЕтрансформере. Который тем не менее работает на некоторых задачах не хуже и линеен по памяти.

Очень интересное критическое видео. Хорошие пример как надо читать статью и почему не надо вестись на формулы и названия, которые дали авторы.(Спойлер - query у авторов по сути ими не являются. Это по сути value, а, точнее, ровно один выучиваемый value)

Код

#transformer #yannic

https://youtu.be/qgUegkefocg

GitHub

GitHub - wuch15/Fastformer: A pytorch &keras implementation and demo of Fastformer.

A pytorch &keras implementation and demo of Fastformer. - GitHub - wuch15/Fastformer: A pytorch &keras implementation and demo of Fastformer.

230 viewsDmitry Penzar, edited 19:54

AI Для Всех

Train short. Test long. Attention with linear biases enables input length extrapolation. (Facebook AI)

Ещё со времён появления первых трансформеров остается открытым фундаментальный вопрос: как добиться экстраполяции на более длинные последовательности, чем те, на которых сеть обучалась?

Авторы описывают простой и эффективный метод, Attention with Linear Biases (ALiBi), который позволяет проводить такую экстраполяцию. ALiBi не добавляет позиционные эмбединги к эмбедингам слов; вместо этого it biases the query-key attention scores with a term that is proportional to their distance.

Авторы показывают, что этот метод позволяет обучить модель с 1,3 миллиардами параметров на входных последовательностях длиной 1024, которая экстраполируется на входные последовательности длиной 2048, достигая той же сложности, что и синусоидальная модель позиционных эмбедингов, обученная на входных данных длиной 2048, на 11% быстрее и используя на 11% меньше памяти. Индуктивный баес ALiBi в сторону рекуррентности позволяет ему превзойти несколько сильных позиционных методов на эталоне WikiText-103.

Статья
GitHub
Видео-разбор от Яника

#training #transformer

221 viewsArtemii, edited 07:50

About

Blog

Apps

Platform