VPTracker:基于MLLM的全局视觉-语言跟踪
Paper#vision-language tracking, MLLM, object tracking🔬 Research|分析: 2026年1月3日 19:34•
发布: 2025年12月28日 06:12
•1分で読める
•ArXiv分析
本文介绍了VPTracker,这是一种利用多模态大型语言模型 (MLLM) 进行全局搜索的视觉-语言跟踪新方法。关键创新是一种位置感知视觉提示机制,它将空间先验信息集成到MLLM中,提高了对视角变化和遮挡等挑战的鲁棒性。这是通过利用MLLM的语义推理能力,实现更可靠和稳定的目标跟踪的重要一步。