AI Для Всех
12.1K subscribers
1.03K photos
127 videos
10 files
1.31K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
Patches are all you need? 🤷

«Первая нейронная сеть, которая достигает 2х целей одновременно - 80++% на ImageNet Top-1 и влезает в один твит»

Сама нейронка - это очередная вариация на тему Conv-Mixers про которые я писал тут.

Авторы пока не известны (статья ещё на ревью), но про то насколько это круто высказались многие известные исследователи, включая Andrej Karpathy (Head of AI in Tesla).

Статья

#images
Causal ImageNet: How to discover spurious features in Deep Learning?

Часто, нейросети обученные на казалось бы больших датасетах типа ImageNet, плохо работают в реальном мире. Авторы исследования, считают что проблема может крыться в том, что сети уделяют слишком много внимания входным признакам, которые причинно не связаны с истинной меткой класса (например хотим предсказать кошку, а сеть зачем то ещё и фон учитывает).

Фокусируясь на классификации изображений, авторы определяют набор причинных визуальных признаков (всегда являются частью объекта) и набор ложных признаков (те, которые, так или иначе связаны с объектом, но не являются его частью. Например, признак «пальцы'' для класса «повязка'').

Авторы представляют набор данных Causal Imagenet, содержащий маски причинных и ложных признаков для большого набора сэмплов из Imagenet.

Данные пока не выложили, обновлю пост когда появятся.

📎Статья

#causality #datasets #images
Feature extraction in torchvision

В обновлении torchvision (популярная надстройка к PyTorch) появились зачатки функционала Explainable AI (#XAI, запоминайте сокращение, будем его слышать все чаще и чаще).

Теперь, с помощью функции «из коробки», можно строить карты активации нейронов для сверточных сетей (не то что бы раньше было нельзя, но стало сильно удобнее).

🔭 Разбор и туториал

#explainability #images
Image Manipulation with Only Pretrained StyleGAN

StyleGAN позволяет манипулировать и редактировать изображения благодаря своему обширному латентному пространству.

В данной работе, авторы показывают, что с помощью предварительно обученного StyleGAN вместе с некоторыми операциями, без какой-либо дополнительной архитектуры, можно смешивать изображения, генерировать панорамы, применять стили и много другое. Look mum, no clip!

💻 Colab
📎 Статья
🖥 Код

#gan #images
This media is not supported in your browser
VIEW IN TELEGRAM
EditGAN: High-Precision Semantic Image Editing

NVidia продолжает наступать на пятки компании Adobe, предложив EditGAN. Этот метод, позволяет пользователям редактировать изображения.

EditGAN может манипулировать изображениями с беспрецедентным уровнем детализации и свободы, сохраняя при этом полное качество изображения.

EditGAN - это первая система редактирования изображений на основе GAN, которая одновременно (i) обеспечивает очень высокую точность редактирования, (ii) требует очень мало аннотированных обучающих данных (и не полагается на внешние классификаторы), (iii) может работать интерактивно в реальном времени, (iv) обеспечивает простую композицию нескольких правок, (v) и работает на реальных встроенных, сгенерированных GAN и даже внедоменных изображениях.

код обещают soon

🖥 Проект
📎 Статья

#GAN #editing #images
This media is not supported in your browser
VIEW IN TELEGRAM
ProsePainter

Создавайте образы, рисуя словами.
ProsePainter сочетает в себе рисование руками с оптимизацией изображения в реальном времени с помощью машинного обучения. Просто скажите, что вы хотите, и выделите нужную область.

🖥 Код

#CLIP #images #multimodal
Masked Autoencoders Are Scalable Vision Learners

Ещё одна идея, которая казалось бы была на поверхности, and yet… Берём картиночный автоэнкодер, делим картинку на патчи, прячем их в случайном порядке, и просим декодер восстановить изображение (в режиме self-supervised).

Авторы (Facebook/Meta AI), обнаружили, что скрытие большой части входного изображения, например, 75%, дает нетривиальную и осмысленную задачу для self-supervised обучения. Оказалось, что в такой формулировке, автоэнкодер обучается в ~3 раза быстрее (чем если бы мы учили на изображениях без масок).

Более того, оказалось, что если к такому обученному автоэнкодеру прикрутить голову на классификацию (например), то она будет показывать SOTA результаты. Так же, авторы показывают, что при масштабировании датасета, результаты только улучшаются.

📎 Статья
🖥 Код (не официальный)

#SSL #autoencoders #images
Эффективное обучение визуальных трансформеров на небольших наборах данных

Визуальные трансформеры (ViT) уже почти сравнялись по популярности со сверточными сетями (CNN). Однако, ViT требуется намного больше данных, чем CNN.

В статье анализируются различные ViT, сравнивается их устойчивость в режиме малого набора данных для обучения, и демонстрируется, что, несмотря на сопоставимую точность при обучении на ImageNet, их производительность на меньших наборах данных может значительно отличаться.

Авторы предлагают self-supervised задачу, которая может извлекать дополнительную информацию из изображений с незначительными вычислительными затратами. Эта задача побуждает ViT изучать пространственные отношения внутри изображения и делает обучение ViT гораздо более надежным в условиях нехватки обучающих данных. Задача используется совместно с supervised обучением и не зависит от конкретных архитектурных решений. Этот метод помогает улучшить конечную точность ViT.

📎 Статья
🖥 Код

#transformer #SSL #images
An Image Patch is a Wave: Phase-Aware Vision MLP

В отличие от сверточных нейросетей (CNN) и визуальных трансформеров (ViT), многослойные перцептрон (MLP) - это вид моделей с чрезвычайно простой архитектурой, которая складывается только из линейных слоев. Входное изображение для зрительной MLP обычно разбивается на несколько патчей.

В статье предлагается представить каждый патч в виде волновой функции с двумя частями - амплитудой и фазой. Амплитуда - это исходная характеристика, а фаза - комплексное значение, изменяющееся в зависимости от семантического содержания входных изображений.

Основываясь на волновом представлении патчей, авторы создали новую архитектуру Wave-MLP для задач зрения.

Wave-MLP превосходит современные архитектуры MLP в различных задачах зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация.

📎 Статья

#MLP #images
PolyViT: Co-training Vision Transformers on Images, Videos and Audio

Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?

Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.

📎 Статья

#multimodal #audio #video #images #transformer
Artstation Artistic Face HQ

Не могу удержаться и не рассказать. Помните, этим летом обнаружили, что если в VQGAN + CLIP подавать дополнительные затравки типа “artstation”, то есть работает лучше?

Тут кто-то пошёл дальше и собрал целый датасет на 25к лиц с сайта Artstation.

🗂 Dataset
📎 Статья

#datasets #images
ClipCap: CLIP Prefix for Image Captioning

Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.

Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.

Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.

📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн

#clip #images #captioning #text
Начало работы с PyTorch Image Models (timm): Руководство для практиков

PyTorch Image Models (timm) - это современнейшая библиотека для классификации изображений, содержащая коллекцию моделей изображений, оптимизаторов, планировщиков и дополнений. Недавно timm была названа самой популярной библиотекой на papers-with-code 2021 года!

Собственно новость в том, что вышел самый подробный туториал-разбор как с ней работать.

📸 Блог-пост

#beginners #images #tutorial
MaskGIT: Masked Generative Image Transformer

Генеративные трансформаторы быстро завоевали популярность для синтеза реалистичных изображений.

В статье предлагается новая парадигма синтеза изображений с использованием двунаправленного декодера трансформера, который авторы называют MaskGIT. Во время обучения, MaskGIT учится предсказывать случайные спрятанные кусочки. Во время инференса модель начинает с одновременной генерации всех кусочков изображения, а затем итеративно уточняет изображение с учетом предыдущей генерации.

Эксперименты показывают, что MaskGIT значительно превосходит SOTA на ImageNet и ускоряет декодинг до 64 раз.

📎 Статья

#transformer #gan #generative #images