VPTracker:基于MLLM的全局视觉-语言跟踪

Paper#vision-language tracking, MLLM, object tracking🔬 Research|分析: 2026年1月3日 19:34
发布: 2025年12月28日 06:12
1分で読める
ArXiv

分析

本文介绍了VPTracker,这是一种利用多模态大型语言模型 (MLLM) 进行全局搜索的视觉-语言跟踪新方法。关键创新是一种位置感知视觉提示机制,它将空间先验信息集成到MLLM中,提高了对视角变化和遮挡等挑战的鲁棒性。这是通过利用MLLM的语义推理能力,实现更可靠和稳定的目标跟踪的重要一步。
引用 / 来源
查看原文
"The paper highlights that VPTracker 'significantly enhances tracking stability and target disambiguation under challenging scenarios, opening a new avenue for integrating MLLMs into visual tracking.'"
A
ArXiv2025年12月28日 06:12
* 根据版权法第32条进行合法引用。