DenoiseLAB

DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

↗️Ограничения плотного визуального прогнозирования
• Зависимость от предопределенных категорий ограничивает применимость в реальных сценариях.
• Визуальные концепции не ограничены в реальных задачах.

↗️Проблемы с моделями визуального языка (VLM)
• Модели VLM, такие как CLIP, показывают многообещающие результаты в задачах с открытым словарем.
• Прямое применение VLM для плотного прогнозирования приводит к неоптимальной производительности из-за ограничений в представлении локальных объектов.

↗️Наблюдение о графических маркерах CLIP
• Графические маркеры CLIP не могут эффективно агрегировать информацию из пространственно или семантически связанных областей.
• Это приводит к признакам с недостаточной локальной различимостью и пространственной согласованностью.

DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

↗️Предложение DeCLIP
• DeCLIP расширяет возможности CLIP за счет отделения модуля self-attention.
• Функции `содержание" согласуются с представлениями кадрирования изображений для улучшения локальной распознаваемости.
• Функции `контекст" учатся сохранять пространственные корреляции под руководством моделей vision foundation, таких как DINO.

↗️Эксперименты и результаты
• Обширные эксперименты показывают, что DeCLIP значительно превосходит существующие методы в решении задач прогнозирования с высокой плотностью словарного запаса.
• Примеры задач: обнаружение объектов и семантическая сегментация.

✅Доступность кода
• Код доступен по адресу: https://github.com/xiaomoguhz/DeCLIP

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - xiaomoguhz/DeCLIP: [CVPR 2025] DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

[CVPR 2025] DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception - xiaomoguhz/DeCLIP

82 viewsedited 11:20