Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?
В этой работе авторы исследуют, является ли основной модуль self-attention в трансформере ключом к достижению превосходных результатов в распознавании изображений. Для этого они строят сеть без внимания на основе MLP.
Для лексем двумерного изображения sMLP применяет одномерную MLP вдоль осевых направлений, а параметры разделяются между строками или столбцами. Благодаря разреженному соединению и разделению веса, модуль sMLP значительно сокращает количество параметров модели и вычислительную сложность. Успех sMLPNet говорит о том, что механизм self-attention не обязательно является серебряной пулей в компьютерном зрении.
📎 Статья
🖥 Код
#mlp #transformer
В этой работе авторы исследуют, является ли основной модуль self-attention в трансформере ключом к достижению превосходных результатов в распознавании изображений. Для этого они строят сеть без внимания на основе MLP.
Для лексем двумерного изображения sMLP применяет одномерную MLP вдоль осевых направлений, а параметры разделяются между строками или столбцами. Благодаря разреженному соединению и разделению веса, модуль sMLP значительно сокращает количество параметров модели и вычислительную сложность. Успех sMLPNet говорит о том, что механизм self-attention не обязательно является серебряной пулей в компьютерном зрении.
📎 Статья
🖥 Код
#mlp #transformer
Localizing Objects with Self-Supervised Transformers and no Labels 🏷
Аннотация или labelling данных, довольно нудное и трудоёмкое занятие.
В статье предлагают простой подход к решению этой проблемы. Давайте научимся локализоваться объекты в режиме self-supervised. В качестве нейросети - используют трансформер (ViT, про который я писал тут).
Авторы сравниваются с SOTA обнаружения объектов, превосходят на 8 баллов CorLoc на PASCAL VOC 2012. Более того, показывают многообещающие результаты в задаче обнаружения объектов без наблюдения.
Статья
Код
#SSL #transformer #detection
Аннотация или labelling данных, довольно нудное и трудоёмкое занятие.
В статье предлагают простой подход к решению этой проблемы. Давайте научимся локализоваться объекты в режиме self-supervised. В качестве нейросети - используют трансформер (ViT, про который я писал тут).
Авторы сравниваются с SOTA обнаружения объектов, превосходят на 8 баллов CorLoc на PASCAL VOC 2012. Более того, показывают многообещающие результаты в задаче обнаружения объектов без наблюдения.
Статья
Код
#SSL #transformer #detection
Relative Molecule Self-Attention Transformer
Self-supervised learning обещает произвести революцию в предсказании свойств молекул - центральной задаче открытия лекарств и многих других отраслей промышленности - благодаря возможности эффективного обучения на основе скудных экспериментальных данных.
Авторы полагают, что что-бы все реально заработало нужно решить проблему с выбором правильной архитектуры, которая, по их мнению, может быть самой проблемной частью.
Авторы предлагают новый вариант self-attention, адаптированный для обработки молекул, вдохновленный слоем relative self-attention, который предполагает объединение встроенного графа и отношений расстояния между атомами. Основной вклад работы - Relative Molecule Attention Transformer (R-MAT): новая модель на основе трансформера, которая достигает современных или очень конкурентоспособных результатов в широком диапазоне задач предсказания свойств молекул.
📎Статья
#ScientifcML #chemistry #transformer #SSL
Self-supervised learning обещает произвести революцию в предсказании свойств молекул - центральной задаче открытия лекарств и многих других отраслей промышленности - благодаря возможности эффективного обучения на основе скудных экспериментальных данных.
Авторы полагают, что что-бы все реально заработало нужно решить проблему с выбором правильной архитектуры, которая, по их мнению, может быть самой проблемной частью.
Авторы предлагают новый вариант self-attention, адаптированный для обработки молекул, вдохновленный слоем relative self-attention, который предполагает объединение встроенного графа и отношений расстояния между атомами. Основной вклад работы - Relative Molecule Attention Transformer (R-MAT): новая модель на основе трансформера, которая достигает современных или очень конкурентоспособных результатов в широком диапазоне задач предсказания свойств молекул.
📎Статья
#ScientifcML #chemistry #transformer #SSL
SSAST: Self-Supervised Audio Spectrogram Transformer
Вообще стараюсь не писать про статьи без кода, но тут прям круг замкнулся. Следите за руками. Сначала придумали DL для картинок, потом попробовали применять этот картиночный DL к сигналам, поняли что что-то не так. Придумали использовать его на спектрограммах (2х мерное представление звука) - заработало. Потом придумали трансформеры, что бы работать непосредственно с time-series. Класс, все работает. Но! Потом придумали трансформеры для картинок (Visual Transformers - ViT), а теперь их же используют для спектрограмм. У меня все.
📎Статья
#transformer #signal #sound #SSL
Вообще стараюсь не писать про статьи без кода, но тут прям круг замкнулся. Следите за руками. Сначала придумали DL для картинок, потом попробовали применять этот картиночный DL к сигналам, поняли что что-то не так. Придумали использовать его на спектрограммах (2х мерное представление звука) - заработало. Потом придумали трансформеры, что бы работать непосредственно с time-series. Класс, все работает. Но! Потом придумали трансформеры для картинок (Visual Transformers - ViT), а теперь их же используют для спектрограмм. У меня все.
📎Статья
#transformer #signal #sound #SSL
Эффективное обучение визуальных трансформеров на небольших наборах данных
Визуальные трансформеры (ViT) уже почти сравнялись по популярности со сверточными сетями (CNN). Однако, ViT требуется намного больше данных, чем CNN.
В статье анализируются различные ViT, сравнивается их устойчивость в режиме малого набора данных для обучения, и демонстрируется, что, несмотря на сопоставимую точность при обучении на ImageNet, их производительность на меньших наборах данных может значительно отличаться.
Авторы предлагают self-supervised задачу, которая может извлекать дополнительную информацию из изображений с незначительными вычислительными затратами. Эта задача побуждает ViT изучать пространственные отношения внутри изображения и делает обучение ViT гораздо более надежным в условиях нехватки обучающих данных. Задача используется совместно с supervised обучением и не зависит от конкретных архитектурных решений. Этот метод помогает улучшить конечную точность ViT.
📎 Статья
🖥 Код
#transformer #SSL #images
Визуальные трансформеры (ViT) уже почти сравнялись по популярности со сверточными сетями (CNN). Однако, ViT требуется намного больше данных, чем CNN.
В статье анализируются различные ViT, сравнивается их устойчивость в режиме малого набора данных для обучения, и демонстрируется, что, несмотря на сопоставимую точность при обучении на ImageNet, их производительность на меньших наборах данных может значительно отличаться.
Авторы предлагают self-supervised задачу, которая может извлекать дополнительную информацию из изображений с незначительными вычислительными затратами. Эта задача побуждает ViT изучать пространственные отношения внутри изображения и делает обучение ViT гораздо более надежным в условиях нехватки обучающих данных. Задача используется совместно с supervised обучением и не зависит от конкретных архитектурных решений. Этот метод помогает улучшить конечную точность ViT.
📎 Статья
🖥 Код
#transformer #SSL #images
PolyViT: Co-training Vision Transformers on Images, Videos and Audio
Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?
Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.
📎 Статья
#multimodal #audio #video #images #transformer
Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?
Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.
📎 Статья
#multimodal #audio #video #images #transformer
Media is too big
VIEW IN TELEGRAM
End-to-End Referring Video Object Segmentation with Multimodal Transformers
Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.
В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.
Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).
📎 Статья
🖥 Код
#multimodal #video #transformer #text #segmentation
Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.
В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.
Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).
📎 Статья
🖥 Код
#multimodal #video #transformer #text #segmentation
Language Models as Zero-Shot Planners
Большие языковые модели (LLM), такие как GPT-3 и Codex, могут планировать действия для воплощенных агентов (embodied - ну всякие там роботы и тд),
даже без дополнительного обучения.
То есть ты говоришь GPT:
- Алиса, сделай завтрак!
А она это преобразует в последовательность действий для робота:
- дойди до холодильника
- открой холодильник
- и тд
📎 Статья
🖥 Код
🦸♀️ Проект
#gpt #transformer #reasoning
Большие языковые модели (LLM), такие как GPT-3 и Codex, могут планировать действия для воплощенных агентов (embodied - ну всякие там роботы и тд),
даже без дополнительного обучения.
То есть ты говоришь GPT:
- Алиса, сделай завтрак!
А она это преобразует в последовательность действий для робота:
- дойди до холодильника
- открой холодильник
- и тд
📎 Статья
🖥 Код
🦸♀️ Проект
#gpt #transformer #reasoning
MaskGIT: Masked Generative Image Transformer
Генеративные трансформаторы быстро завоевали популярность для синтеза реалистичных изображений.
В статье предлагается новая парадигма синтеза изображений с использованием двунаправленного декодера трансформера, который авторы называют MaskGIT. Во время обучения, MaskGIT учится предсказывать случайные спрятанные кусочки. Во время инференса модель начинает с одновременной генерации всех кусочков изображения, а затем итеративно уточняет изображение с учетом предыдущей генерации.
Эксперименты показывают, что MaskGIT значительно превосходит SOTA на ImageNet и ускоряет декодинг до 64 раз.
📎 Статья
#transformer #gan #generative #images
Генеративные трансформаторы быстро завоевали популярность для синтеза реалистичных изображений.
В статье предлагается новая парадигма синтеза изображений с использованием двунаправленного декодера трансформера, который авторы называют MaskGIT. Во время обучения, MaskGIT учится предсказывать случайные спрятанные кусочки. Во время инференса модель начинает с одновременной генерации всех кусочков изображения, а затем итеративно уточняет изображение с учетом предыдущей генерации.
Эксперименты показывают, что MaskGIT значительно превосходит SOTA на ImageNet и ускоряет декодинг до 64 раз.
📎 Статья
#transformer #gan #generative #images
3 вещи которые нужно знать про Visual Transformers:
1. Residual слои ViT можно эффективно распараллелить, на точности это практически не скажется
2. Для адаптации ViT к более высокому разрешению и к другим задачам классификации достаточно файнтюнинга слоев внимания.
3. Добавление слоев предварительной обработки патчей на основе MLP улучшает self-supervised обучение по типу BERT (на основе маскировки патчей)
📝 Статья
#transformer #vit
1. Residual слои ViT можно эффективно распараллелить, на точности это практически не скажется
2. Для адаптации ViT к более высокому разрешению и к другим задачам классификации достаточно файнтюнинга слоев внимания.
3. Добавление слоев предварительной обработки патчей на основе MLP улучшает self-supervised обучение по типу BERT (на основе маскировки патчей)
📝 Статья
#transformer #vit