Прорыв в области self-supervised segmentation. Теперь можно сегментировать картинки вообще без размеренных данных 🦕 🐾
Ян Лекун Ликует :)
Блог-пост
Demo на Spaces
#segmentation #images #SSL #classification
Ян Лекун Ликует :)
Блог-пост
Demo на Spaces
#segmentation #images #SSL #classification
Meta
DINO and PAWS: Advancing the state of the art in computer vision
Working with Inria researchers, we’ve developed a self-supervised image representation method, DINO, which produces remarkable results when trained with Vision Transformers. We are also detailing PAWS, a new method for 10x more efficient training.
AI Для Всех
Прорыв в области self-supervised segmentation. Теперь можно сегментировать картинки вообще без размеренных данных 🦕 🐾 Ян Лекун Ликует :) Блог-пост Demo на Spaces #segmentation #images #SSL #classification
Не прошло и недели, а finetuning DINO уже доступен в PyTorch Lightnings Flash:
Twitter пост
#segmentation #SSL
Twitter пост
#segmentation #SSL
Twitter
Ari Bornstein
⚡️📣Excited to announce that @PyTorchLightnin Flash supports FineTuning of the new @facebookai Dino self-supervised backbones for Computer Vision Tasks.⚡️ Docs: bit.ly/3tfLeqm Repo: bit.ly/2RiAV7Z Dino Repo: bit.ly/3nGjlqk twitter.com/schrep/status/…
Я ещё не скоро доберусь это почитать. Но очевидно что это новая веха.
Twitter пост
#Segmentation #images
Twitter пост
#Segmentation #images
Twitter
Mark
I am delighted to share that we have open-sourced our project with @GoogleAI : A modern #TensorFlow library with state-of-the-art models for various segmentation tasks: Semantic Segmentation, Panoptic Segmentation, Video Panoptic Segmentation and Depth Prediction!…
Статья с U-Net, но теперь на трансформерах.
Качество по дов. интервалам не отличается от обычного U-Net. Но идея интересная.
Практическая реализация и то же тексты (без доверительных интервалов ))
#transformer #segmentation
Качество по дов. интервалам не отличается от обычного U-Net. Но идея интересная.
Практическая реализация и то же тексты (без доверительных интервалов ))
#transformer #segmentation
Оказывается попиксельная классификация в задачах сегментации In not all you need.
Facebook предлагает ещё в добавок предсказывать бинарные маски, а затем уже для них предсказывать класс
#segmentation #transformer
Facebook предлагает ещё в добавок предсказывать бинарные маски, а затем уже для них предсказывать класс
#segmentation #transformer
Twitter
AK
Per-Pixel Classification is Not All You Need for Semantic Segmentation pdf: arxiv.org/pdf/2107.06278… github: github.com/facebookresear… outperforms both current sota semantic (55.6 mIoU on ADE20K) and panoptic segmentation (52.7 PQ on COCO) models
Segmentation in Style: Unsupervised Semantic Image Segmentation with Stylegan and CLIP
ArXiv
Код
#SSL #segmentation #CLIP
ArXiv
Код
#SSL #segmentation #CLIP
Тэги доступные в канале на данный момент:
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные
SOTR: Segmenting Objects with Transformers
В этой работе авторы представляют эффективную модель для сегментации объектов. Предложенный метод, Segmenting Objects with TRansformers (SOTR) предсказывает категории каждого объекта с помощью трансформера, а затем динамически генерирует маски сегментации с помощью многоуровневого модуля апсемплинга. SOTR может эффективно извлекать низкоуровневые представления признаков и захватывать дальние контекстные зависимости с помощью сети пирамид признаков (FPN) и двойного трансформера, соответственно. Авторы показывают, что SOTR хорошо работает на наборе данных MS COCO и достигает SOTA (State of the Art) на задачах сегментации.
ArXiv
GitHub
#segmentation #images #transformer
В этой работе авторы представляют эффективную модель для сегментации объектов. Предложенный метод, Segmenting Objects with TRansformers (SOTR) предсказывает категории каждого объекта с помощью трансформера, а затем динамически генерирует маски сегментации с помощью многоуровневого модуля апсемплинга. SOTR может эффективно извлекать низкоуровневые представления признаков и захватывать дальние контекстные зависимости с помощью сети пирамид признаков (FPN) и двойного трансформера, соответственно. Авторы показывают, что SOTR хорошо работает на наборе данных MS COCO и достигает SOTA (State of the Art) на задачах сегментации.
ArXiv
GitHub
#segmentation #images #transformer
Online Hard Example Mining ⛏
Некоторые наборы данных для обнаружения объектов содержат подавляющее число легких примеров и небольшое число трудных примеров. Автоматический отбор этих трудных примеров может сделать обучение более эффективным и результативным. OHEM, или Online Hard Example Mining, - это метод бутстраппинга, который модифицирует SGD для неравномерной выборки сэмплов в зависимости от текущего лосса каждого рассматриваемого сэмпла.
arXiv
GitHub
#basics #detection #segmentation
Некоторые наборы данных для обнаружения объектов содержат подавляющее число легких примеров и небольшое число трудных примеров. Автоматический отбор этих трудных примеров может сделать обучение более эффективным и результативным. OHEM, или Online Hard Example Mining, - это метод бутстраппинга, который модифицирует SGD для неравномерной выборки сэмплов в зависимости от текущего лосса каждого рассматриваемого сэмпла.
arXiv
GitHub
#basics #detection #segmentation
Panoptic Segformer
Panoptic SegFormer - общая архитектура для сквозной паноптической сегментации с использованием трансформеров. Предлагаемый метод расширяет деформируемый DETR с единым рабочим процессом предсказания масок для вещей и предметов, делая пайплайн паноптической сегментации лаконичным и эффективным. Используя за основу ResNet-50, метод достигает 50.0% PQ на тестовом сплите COCO, превосходя предыдущие современные методы на значительную величину без всяких прибамбасов.
Статья
#segmentation #transformer #images
Panoptic SegFormer - общая архитектура для сквозной паноптической сегментации с использованием трансформеров. Предлагаемый метод расширяет деформируемый DETR с единым рабочим процессом предсказания масок для вещей и предметов, делая пайплайн паноптической сегментации лаконичным и эффективным. Используя за основу ResNet-50, метод достигает 50.0% PQ на тестовом сплите COCO, превосходя предыдущие современные методы на значительную величину без всяких прибамбасов.
Статья
#segmentation #transformer #images
ConvMLP: Hierarchical Convolutional MLPs for Vision
Недавно было показано, что архитектуры на основе MLP, состоящие из последовательных блоков многослойных перцептронов (см тут), сравнимы с сверточными и трансформерными методами. Однако большинство этих пространственных MLP принимают фиксированные размерные входные данные, поэтому их нельзя применять для решения последующих задач, таких как обнаружение объектов и семантическая сегментация. Более того, одноступенчатые конструкции еще больше ограничивают производительность в других задачах компьютерного зрения, а полностью связанные слои требуют больших вычислений.
Для решения этих проблем авторы предлагают ConvMLP: иерархический сверточный MLP для визуального распознавания, который представляет собой легкую, поэтапную, совместную конструкцию сверточных слоев и MLP. В частности, ConvMLP-S достигает 76,8% точности top-1 на ImageNet-1k с 9M параметрами и 2,4G MACs (15% и 19% от MLP-Mixer-B/16, соответственно).
Статья
Код
#MLP #CNN #segmentation #detetctiton
Недавно было показано, что архитектуры на основе MLP, состоящие из последовательных блоков многослойных перцептронов (см тут), сравнимы с сверточными и трансформерными методами. Однако большинство этих пространственных MLP принимают фиксированные размерные входные данные, поэтому их нельзя применять для решения последующих задач, таких как обнаружение объектов и семантическая сегментация. Более того, одноступенчатые конструкции еще больше ограничивают производительность в других задачах компьютерного зрения, а полностью связанные слои требуют больших вычислений.
Для решения этих проблем авторы предлагают ConvMLP: иерархический сверточный MLP для визуального распознавания, который представляет собой легкую, поэтапную, совместную конструкцию сверточных слоев и MLP. В частности, ConvMLP-S достигает 76,8% точности top-1 на ImageNet-1k с 9M параметрами и 2,4G MACs (15% и 19% от MLP-Mixer-B/16, соответственно).
Статья
Код
#MLP #CNN #segmentation #detetctiton
LIVECell
(Label-free In Vitro image Examples of Cells) - это набор данных микроскопических изображений для инстант-сегментации отдельных клеток в двумерных клеточных культурах.
LIVECell состоит из 5239 аннотированных вручную, проверенных экспертами изображений фазово-контрастной микроскопии Incucyte HD с общим количеством 1 686 352 отдельных клеток, аннотированных по восьми различным типам (в среднем 313 клеток на одном изображении). Изображения LIVECell предварительно разделены на train (3188), Val (539) и test (1512) наборы.
#ScientificML #datasets #biology #segmentation
(Label-free In Vitro image Examples of Cells) - это набор данных микроскопических изображений для инстант-сегментации отдельных клеток в двумерных клеточных культурах.
LIVECell состоит из 5239 аннотированных вручную, проверенных экспертами изображений фазово-контрастной микроскопии Incucyte HD с общим количеством 1 686 352 отдельных клеток, аннотированных по восьми различным типам (в среднем 313 клеток на одном изображении). Изображения LIVECell предварительно разделены на train (3188), Val (539) и test (1512) наборы.
#ScientificML #datasets #biology #segmentation
This media is not supported in your browser
VIEW IN TELEGRAM
Unidentified Video Objects
UVO - это новый бенчмарк для сегментации объектов в видео с открытым миром, не зависящей от класса. Помимо смещения фокуса проблемы в сторону открытого мира, UVO значительно больше (примерно в 8 раз больше видео по сравнению с DAVIS, и в 7 раз больше по сравнению с YouTube-VOS и YouTube-VIS).
UVO также является более сложным бенчмарком, поскольку включает в себя множество видео с переполненными сценами и сложными фоновыми движениями. Некоторые основные моменты датасета включают:
✅ Качественные, плотно аннотированные маски сэмлов.
✅ Открытый мир: аннотирование всех объектов в каждом видео, в среднем 13,5 объектов на видео
✅ Разнообразные категории объектов: 57% объектов не охватываются категориями COCO
📎 Статья
🗂 Датасет
#segmentation #datasets #video
UVO - это новый бенчмарк для сегментации объектов в видео с открытым миром, не зависящей от класса. Помимо смещения фокуса проблемы в сторону открытого мира, UVO значительно больше (примерно в 8 раз больше видео по сравнению с DAVIS, и в 7 раз больше по сравнению с YouTube-VOS и YouTube-VIS).
UVO также является более сложным бенчмарком, поскольку включает в себя множество видео с переполненными сценами и сложными фоновыми движениями. Некоторые основные моменты датасета включают:
✅ Качественные, плотно аннотированные маски сэмлов.
✅ Открытый мир: аннотирование всех объектов в каждом видео, в среднем 13,5 объектов на видео
✅ Разнообразные категории объектов: 57% объектов не охватываются категориями COCO
📎 Статья
🗂 Датасет
#segmentation #datasets #video
Media is too big
VIEW IN TELEGRAM
End-to-End Referring Video Object Segmentation with Multimodal Transformers
Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.
В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.
Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).
📎 Статья
🖥 Код
#multimodal #video #transformer #text #segmentation
Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.
В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.
Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).
📎 Статья
🖥 Код
#multimodal #video #transformer #text #segmentation
PartImageNet: Большой датасет деталей и частей
В работе PartImageNet авторы заморочились настолько, что выпустили огроменный датасет с размеренными частями объектов (например лапы отдельно, хвосты отдельно).
Он состоит из 158 классов из ImageNet с приблизительно 24000 изображений.
📎 Статья
🗂 Датасет
#datasets #segmentation
В работе PartImageNet авторы заморочились настолько, что выпустили огроменный датасет с размеренными частями объектов (например лапы отдельно, хвосты отдельно).
Он состоит из 158 классов из ImageNet с приблизительно 24000 изображений.
📎 Статья
🗂 Датасет
#datasets #segmentation