AI Для Всех
12.8K subscribers
1.18K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Video contrastive learning with global context.

Предлагают новый метод контрастивного обучения на уровне видео, основанный на сегментах для формирования положительных пар.

Формулировка в статье позволяет улавливать глобальный контекст в видео, что делает ее устойчивой к временным изменениям контента. Авторы так же включают термин регуляризации временного порядка, чтобы обеспечить соблюдение присущей видео последовательной структуры.

GitHub

#ContrastiveLearning #video
VideoGPT: Video Generation using VQ-VAE and Transformers

Концептуально простая архитектура для масштабирования генеративного моделирования на основе правдоподобия (likelihood modeling) на естественное видео.

VideoGPT использует VQ-VAE, который выучивает латентные представления исходного видео с пониженной дискретизацией (downsampled), используя 3D-свертки и осевой self-attention.

Затем простая архитектура, типа #GPT, используется для авторегрессионного моделирования дискретных латентных представлений с помощью пространственно-временных позиционных кодировок (spatio-temporal position encodings).

Сеть способна генерировать видосы, конкурентоспособные с современными #GAN-моделями для генерации видео.

ArXiv
Проект
Colab

#video #generative
Multiscale Vision Transformers

Facebook AI выпустили Multiscale Vision Transformers (MViT).
Сеть используют для representation learning (на изображения и видео). MViT относится к семейству моделей пользующихся иерархическими представлениями (по заветам D.H. Hubel и T.N. Wiesel, разработавших иерархическую модель человеческого зрения в 60х годах).

Почему это важно:
MViT - это значительное улучшение по сравнению с предыдущими попытками понимания видео Трансформерами.

Блог-пост
GitHub

#transformer #images #video #SSL #representationLearning
NeuralCompression (Facebook research)

NeuralCompression - это PyTorch репозиторий, посвященный исследованию нейронных сетей, сжимающих данные. Репозиторий включает такие инструменты, как энтропийные кодеры на основе JAX, модели сжатия изображений, модели сжатия видео, а также метрики для оценки изображений и видео.

#compression #audio #video #images
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP (Tencent)

CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.

arXiv
Github

#clip #multimodal #video #nlp #text
Local Metrics for Multi-Object Tracking

Метрики для многообъектного слежения (MOT) можно разделить на строгие метрики, которые обеспечивают фиксированное, один к одному соответствие между истинными и предсказанными следами, и нестрогие метрики, которые верны в подмножестве кадров.

Тип метрики, которая подходит, определяется приоритетами задачи. В то время как строгие метрики относительно бесспорны, разработка нестрогой метрики обычно включает два спорных решения: (i) как количественно оценить ошибку ассоциации и (ii) как сочетать метрики обнаружения и ассоциации.

Локальные метрики получаются путем применения существующей строгой метрики локально в скользящем окне. Они представляют собой альтернативный способ определения нестрогой метрики, где степень строгости (то есть баланс между обнаружением и ассоциацией) контролируется через временной горизонт локального окна. Варьирование параметра горизонта позволяет анализировать ошибку ассоциации в зависимости от временного расстояния.

Одним из исторических недостатков метрик, основанных на соответствии треков один-к-одному, является их непрозрачность в отношении типа ошибки. То есть может быть неясно, является ли снижение общей ошибки отслеживания следствием улучшения обнаружения или ассоциации (или того и другого). Чтобы решить эту проблему, гугл разработали декомпозицию общей ошибки отслеживания на четыре компонента: избыточное и недостаточное обнаружение (FN det, FP det) и избыточное и недостаточное объединение (merge, split). Декомпозиция ошибок в равной степени применима к локальным метрикам.

Статья
Код

#video #tracking
ActionCLIP: A New Paradigm for Video Action Recognition

В традиционном (казалось бы насколько это слово не применимо к машинному обучению) мире ML, для того что бы обрабатывать видео - нужно пилить какой-то класификатор.

С подходом ActionCLIP - все проще. Просто учим CLIP, но вместо картинок - используем видео. Вуаля - теперь у вас есть система, которая может описать что происходит с вашими котиками или кто там у вас (а значит можем и искать по видосам).

Приминений в науке - море! Хочешь таймлэпсы маркируй и разбивай на осмысленные фрагменты, хочешь записи с телескопов и микроскопов.

Статья
Код

#CLIP #video
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding

И продолжая тему с видеоCLIPами. На этот раз статья от Facebook. VideoCLIP обучают трансформер для видео и текста, противопоставляя перекрывающиеся во времени положительные пары видео и текста жестким отрицательным парам, полученным в результате поиска ближайших соседей.
Говорят что их результаты самые самые.

Статья
Код

#CLIP #video #multimodal
This media is not supported in your browser
VIEW IN TELEGRAM
ByteTrack 👀

Многообъектное отслеживание (MOT) работает путём определения границ и идентификации объектов в видео. Большинство методов определяют один и тот же ли это объект на разных кадрах путем объединения блоков обнаружения, чьи оценки превышают пороговое значение. Объекты с низкой оценкой обнаружения, например, перекрытые объекты, просто отбрасываются, что приводит к пропуску истинных объектов и фрагментации траекторий.

В статье, авторы объясняют, что так делать не надо, а надо брать объекты с вообще всеми оценками, а потом их перевешивать.

📎 Статья
🖥 Код
🤩 Онлайн-демо

P.S.: демка работает только с фото, но на гитхабе код норм для видео.

#video #tracking #demo
🤯 wav2CLIP

Новый метод обучения аудиопредставлений путем дистилляции из контрастивного предварительного обучения языку и изображению (CLIP).

Авторы оценивают Wav2CLIP на различных аудиозадачах, включая классификацию, поиск и генерацию, и показывают, что Wav2CLIP превосходит общедоступные алгоритмы предварительного обучения audio representation.

Wav2CLIP проецирует аудио в общее пространство эмбедингов с изображениями и текстом, что позволяет использовать его в мультимодальных задачах, таких как классификация zero-shot и кросс-модальный поиск. Более того, Wav2CLIP требуется всего ~10% от данных необходимых для supervised learning.

📎 Статья
🖥 Код

#clip #audio #video #multimodal
This media is not supported in your browser
VIEW IN TELEGRAM
Unidentified Video Objects

UVO - это новый бенчмарк для сегментации объектов в видео с открытым миром, не зависящей от класса. Помимо смещения фокуса проблемы в сторону открытого мира, UVO значительно больше (примерно в 8 раз больше видео по сравнению с DAVIS, и в 7 раз больше по сравнению с YouTube-VOS и YouTube-VIS).

UVO также является более сложным бенчмарком, поскольку включает в себя множество видео с переполненными сценами и сложными фоновыми движениями. Некоторые основные моменты датасета включают:

Качественные, плотно аннотированные маски сэмлов.

Открытый мир: аннотирование всех объектов в каждом видео, в среднем 13,5 объектов на видео

Разнообразные категории объектов: 57% объектов не охватываются категориями COCO

📎 Статья
🗂 Датасет

#segmentation #datasets #video
PolyViT: Co-training Vision Transformers on Images, Videos and Audio

Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?

Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.

📎 Статья

#multimodal #audio #video #images #transformer
Media is too big
VIEW IN TELEGRAM
End-to-End Referring Video Object Segmentation with Multimodal Transformers

Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.

В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.

Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).

📎 Статья
🖥 Код

#multimodal #video #transformer #text #segmentation