DenoiseLAB

Создание компактных и чувствительных ко времени визуальных представлений динамических сцен является ключевым условием успешного выполнения последовательных задач понимания сцены, таких как визуальное отслеживание объектов и роботизированная манипуляция предметами. В данной статье представлен метод Token Bottleneck (ToBo) — простой и интуитивно понятный конвейер самообучаемого алгоритма, сжимающий сцену в узкое временное представление («токен») и предсказывающий последующую сцену, используя минимальное количество ключевых фрагментов в качестве подсказок.

Pipeline ToBo позволяет эффективно формировать представления последовательности сцен путём консервативного кодирования исходной сцены в компактный токен («squeeze»). Затем, на этапе расширения («expansion»), алгоритм направляет сеть на выявление временных изменений, восстанавливая целевую сцену с помощью сжатого токена и нескольких патчей целевой сцены в качестве ориентировочных сигналов. Такой подход способствует формированию пространственно-временных зависимостей в сетевом представлении, обеспечивая понимание динамики переходов между сценами.

Проведённые обширные эксперименты на различных последовательных задачах, включая распространение меток в видеопоследовательностях и манипуляции роботов в симулированных средах, демонстрируют превосходство метода ToBo над базовыми решениями. Реальные испытания на физических роботах подтверждают надёжность и эффективность предложенного подхода в реальных условиях эксплуатации. Дополнительно проверяется масштабируемость архитектуры ToBo применительно к различным размерам нейронных сетей.

https://arxiv.org/abs/2507.06543

arXiv.org

Token Bottleneck: One Token to Remember Dynamics

Deriving compact and temporally aware visual representations from dynamic scenes is essential for successful execution of sequential scene understanding tasks such as visual tracking and robotic...

🤔2

106 views20:11