AI Для Всех

Panoptic Segformer

Panoptic SegFormer - общая архитектура для сквозной паноптической сегментации с использованием трансформеров. Предлагаемый метод расширяет деформируемый DETR с единым рабочим процессом предсказания масок для вещей и предметов, делая пайплайн паноптической сегментации лаконичным и эффективным. Используя за основу ResNet-50, метод достигает 50.0% PQ на тестовом сплите COCO, превосходя предыдущие современные методы на значительную величину без всяких прибамбасов.

Статья

#segmentation #transformer #images

243 viewsArtemii, edited 14:09

AI Для Всех

This media is not supported in your browser

VIEW IN TELEGRAM

TorchIO

TorchIO - это библиотека для эффективного чтения, предварительной обработки, выборки, дополнения и записи 3D медицинских изображений в приложениях глубокого обучения, написанных на PyTorch, включая преобразования интенсивности и пространственные преобразования для дополнения и предварительной обработки данных. Преобразования включают типичные операции компьютерного зрения, такие как рандомные аффинные преобразования, а также специфические для данной области, такие как моделирование артефактов интенсивности из-за неоднородности магнитного поля МРТ или артефактов движения в k-пространстве.

Сайт
GitHub
Статья

#code #medicine #images #3d #ScientificML

266 viewsArtemii, edited 15:55

AI Для Всех

MEDIC

MEDIC - это большой набор данных классификации изображений из социальных сетей для гуманитарного реагирования, состоящий из 71 198 изображений для решения четырех различных задач. Он составлен из данных из нескольких источников (таких как CrisisMMD, AIDR и Damage Multimodal Dataset)

Датасет

#datasets #images #ScientifcML

232 viewsArtemii, edited 16:25

AI Для Всех

Sparse-MLP: A Fully-MLP Architecture with Conditional Computation

Mixture-of-Experts (MoE) с разреженными условными вычислениями - эффективная архитектура для масштабирования моделей attention на большее количество параметров.

Sparse-MLP - это по сути MLP-Mixer с разреженными слоями MoE. Подмножество dense блоков MLP-Mixer заменяется на разреженные (sparse) блоки. В каждом этом блоке применяется два этапа слоев MoE: один с экспертами MLP, смешивающими информацию внутри каналов по размеру патча изображения, другой с экспертами MLP, смешивающими информацию внутри патчей по размеру канала.

Кроме того, для снижения вычислительных затрат авторы используют слои Re-represent в каждом блоке Sparse. Эти слои предназначены для изменения масштаба представления изображений с помощью двух простых, но эффективных линейных преобразований.

На небольших задачах классификации изображений, т.е. Cifar10 и Cifar100 модель Sparse-MLP достигает лучшей производительности, чем базовые модели.

Статья

#mlp #images #conditional

264 viewsArtemii, edited 15:24

AI Для Всех

Смотрите какая крутая штука! Оказывается loss функцию можно показывать очень и очень красиво и артистично!

Больше крутых примеров 👉 https://losslandscape.com/gallery/

#images #generative #training

276 viewsArtemii, edited 15:53

AI Для Всех

img2dataset

Програмка позволяет с легкостью превращать наборы url в ImageDataset. Обещают что за 20 часов на домашнем компе можно подгрузить и упаковать до 100 млн изображений.

Код

#datasets #images #multimodal

GitHub

GitHub - rom1504/img2dataset: Easily turn large sets of image urls to an image dataset. Can download, resize and package 100M urls…

Easily turn large sets of image urls to an image dataset. Can download, resize and package 100M urls in 20h on one machine. - rom1504/img2dataset

439 viewsArtemii, 05:31

AI Для Всех

Zero-Shot Open Set Detection Based on a Pretrained Language-Vision Model

В задаче на классификацию неограниченных классов сэмплы известных классов (также называемых классами закрытого множества) используются для обучения классификатора. При тестировании классификатор может (1) отнести образцы известных классов к соответствующим классам и (2) определить образцы, которые не принадлежат ни к одному из известных классов (мы говорим, что они принадлежат к некоторым открытым классам).

В работе предлагается метод (ZO-CLIP) для решения проблемы открытой классификации. ZO-CLIP основывается на достижениях в области классификации Zero-Shot с помощью обучения мультимодальному представлению данных (multimodal representation). Сначала он расширяет предварительно обученную модель CLIP, обучая генератор текстовых описаний изображений поверх CLIP. При тестировании ZO-CLIP использует модель для генерации названий неизвестных классов-кандидатов для каждого тестового образца.

Статья

#images #CLIP #multimodal #zeroshot

263 viewsArtemii, 09:57

AI Для Всех

PASS - An ImageNet replacement

PASS - это крупномасштабный набор изображений, в котором нет людей и который можно использовать для обучения, при этом значительно снижая требования к конфиденциальности.

Набор данных географически разнообразен, и почти треть изображений содержит геопривязку.

Сайт
Статья

#images #datasets

409 viewsArtemii, 17:03

AI Для Всех

ResNet strikes back: An improved training procedure in timm

Влиятельный ResNet, разработанный He et al., остается золотым стандартом архитектуры в многочисленных научных публикациях (98к цитирований). ResNetы обычно служат в качестве базовой архитектуры с которой сравнивается работа какой-нибудь новой сетки. Тем не менее, с момента появления архитектуры ResNet в 2015 году произошел значительный прогресс в области лучших методов обучения нейронных сетей (например, новые методы оптимизации и аугментации данных).

В этой статье авторы заново оценивают производительность ванильной ResNet-50 при обучении с помощью новой процедуры, которая учитывает достижения за последние 6 лет. И конечно же добиваются лучшей точности.

Статья
Код

#images #training

801 viewsArtemii, edited 06:26

AI Для Всех

Patches are all you need? 🤷

«Первая нейронная сеть, которая достигает 2х целей одновременно - 80++% на ImageNet Top-1 и влезает в один твит»

Сама нейронка - это очередная вариация на тему Conv-Mixers про которые я писал тут.

Авторы пока не известны (статья ещё на ревью), но про то насколько это круто высказались многие известные исследователи, включая Andrej Karpathy (Head of AI in Tesla).

Статья

#images

875 viewsedited 13:04

AI Для Всех

Causal ImageNet: How to discover spurious features in Deep Learning?

Часто, нейросети обученные на казалось бы больших датасетах типа ImageNet, плохо работают в реальном мире. Авторы исследования, считают что проблема может крыться в том, что сети уделяют слишком много внимания входным признакам, которые причинно не связаны с истинной меткой класса (например хотим предсказать кошку, а сеть зачем то ещё и фон учитывает).

Фокусируясь на классификации изображений, авторы определяют набор причинных визуальных признаков (всегда являются частью объекта) и набор ложных признаков (те, которые, так или иначе связаны с объектом, но не являются его частью. Например, признак «пальцы'' для класса «повязка'').

Авторы представляют набор данных Causal Imagenet, содержащий маски причинных и ложных признаков для большого набора сэмплов из Imagenet.

Данные пока не выложили, обновлю пост когда появятся.

📎Статья

#causality #datasets #images

1.4K views13:35

AI Для Всех

Feature extraction in torchvision

В обновлении torchvision (популярная надстройка к PyTorch) появились зачатки функционала Explainable AI (#XAI, запоминайте сокращение, будем его слышать все чаще и чаще).

Теперь, с помощью функции «из коробки», можно строить карты активации нейронов для сверточных сетей (не то что бы раньше было нельзя, но стало сильно удобнее).

🔭 Разбор и туториал

#explainability #images

1.4K viewsedited 20:15

AI Для Всех

Image Manipulation with Only Pretrained StyleGAN

StyleGAN позволяет манипулировать и редактировать изображения благодаря своему обширному латентному пространству.

В данной работе, авторы показывают, что с помощью предварительно обученного StyleGAN вместе с некоторыми операциями, без какой-либо дополнительной архитектуры, можно смешивать изображения, генерировать панорамы, применять стили и много другое. Look mum, no clip!

💻 Colab
📎 Статья
🖥 Код

#gan #images

1.4K viewsedited 07:17

About

Blog

Apps

Platform