An Image Patch is a Wave: Phase-Aware Vision MLP
В отличие от сверточных нейросетей (CNN) и визуальных трансформеров (ViT), многослойные перцептрон (MLP) - это вид моделей с чрезвычайно простой архитектурой, которая складывается только из линейных слоев. Входное изображение для зрительной MLP обычно разбивается на несколько патчей.
В статье предлагается представить каждый патч в виде волновой функции с двумя частями - амплитудой и фазой. Амплитуда - это исходная характеристика, а фаза - комплексное значение, изменяющееся в зависимости от семантического содержания входных изображений.
Основываясь на волновом представлении патчей, авторы создали новую архитектуру Wave-MLP для задач зрения.
Wave-MLP превосходит современные архитектуры MLP в различных задачах зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация.
📎 Статья
#MLP #images
В отличие от сверточных нейросетей (CNN) и визуальных трансформеров (ViT), многослойные перцептрон (MLP) - это вид моделей с чрезвычайно простой архитектурой, которая складывается только из линейных слоев. Входное изображение для зрительной MLP обычно разбивается на несколько патчей.
В статье предлагается представить каждый патч в виде волновой функции с двумя частями - амплитудой и фазой. Амплитуда - это исходная характеристика, а фаза - комплексное значение, изменяющееся в зависимости от семантического содержания входных изображений.
Основываясь на волновом представлении патчей, авторы создали новую архитектуру Wave-MLP для задач зрения.
Wave-MLP превосходит современные архитектуры MLP в различных задачах зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация.
📎 Статья
#MLP #images
PolyViT: Co-training Vision Transformers on Images, Videos and Audio
Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?
Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.
📎 Статья
#multimodal #audio #video #images #transformer
Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?
Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.
📎 Статья
#multimodal #audio #video #images #transformer
Artstation Artistic Face HQ
Не могу удержаться и не рассказать. Помните, этим летом обнаружили, что если в VQGAN + CLIP подавать дополнительные затравки типа “artstation”, то есть работает лучше?
Тут кто-то пошёл дальше и собрал целый датасет на 25к лиц с сайта Artstation.
🗂 Dataset
📎 Статья
#datasets #images
Не могу удержаться и не рассказать. Помните, этим летом обнаружили, что если в VQGAN + CLIP подавать дополнительные затравки типа “artstation”, то есть работает лучше?
Тут кто-то пошёл дальше и собрал целый датасет на 25к лиц с сайта Artstation.
🗂 Dataset
📎 Статья
#datasets #images
ClipCap: CLIP Prefix for Image Captioning
Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.
Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.
Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.
📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн
#clip #images #captioning #text
Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.
Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.
Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.
📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн
#clip #images #captioning #text
Начало работы с PyTorch Image Models (timm): Руководство для практиков
PyTorch Image Models (timm) - это современнейшая библиотека для классификации изображений, содержащая коллекцию моделей изображений, оптимизаторов, планировщиков и дополнений. Недавно timm была названа самой популярной библиотекой на papers-with-code 2021 года!
Собственно новость в том, что вышел самый подробный туториал-разбор как с ней работать.
📸 Блог-пост
#beginners #images #tutorial
PyTorch Image Models (timm) - это современнейшая библиотека для классификации изображений, содержащая коллекцию моделей изображений, оптимизаторов, планировщиков и дополнений. Недавно timm была названа самой популярной библиотекой на papers-with-code 2021 года!
Собственно новость в том, что вышел самый подробный туториал-разбор как с ней работать.
📸 Блог-пост
#beginners #images #tutorial
MaskGIT: Masked Generative Image Transformer
Генеративные трансформаторы быстро завоевали популярность для синтеза реалистичных изображений.
В статье предлагается новая парадигма синтеза изображений с использованием двунаправленного декодера трансформера, который авторы называют MaskGIT. Во время обучения, MaskGIT учится предсказывать случайные спрятанные кусочки. Во время инференса модель начинает с одновременной генерации всех кусочков изображения, а затем итеративно уточняет изображение с учетом предыдущей генерации.
Эксперименты показывают, что MaskGIT значительно превосходит SOTA на ImageNet и ускоряет декодинг до 64 раз.
📎 Статья
#transformer #gan #generative #images
Генеративные трансформаторы быстро завоевали популярность для синтеза реалистичных изображений.
В статье предлагается новая парадигма синтеза изображений с использованием двунаправленного декодера трансформера, который авторы называют MaskGIT. Во время обучения, MaskGIT учится предсказывать случайные спрятанные кусочки. Во время инференса модель начинает с одновременной генерации всех кусочков изображения, а затем итеративно уточняет изображение с учетом предыдущей генерации.
Эксперименты показывают, что MaskGIT значительно превосходит SOTA на ImageNet и ускоряет декодинг до 64 раз.
📎 Статья
#transformer #gan #generative #images