VPTracker：基于MLLM的全局视觉-语言跟踪

Paper #vision-language tracking, MLLM, object tracking 🔬 Research|分析: 2026年1月3日 19:34•

发布: 2025年12月28日 06:12

•

1分で読める

分析

本文介绍了VPTracker，这是一种利用多模态大型语言模型 (MLLM) 进行全局搜索的视觉-语言跟踪新方法。关键创新是一种位置感知视觉提示机制，它将空间先验信息集成到MLLM中，提高了对视角变化和遮挡等挑战的鲁棒性。这是通过利用MLLM的语义推理能力，实现更可靠和稳定的目标跟踪的重要一步。

要点

引用 / 来源

查看原文

"The paper highlights that VPTracker 'significantly enhances tracking stability and target disambiguation under challenging scenarios, opening a new avenue for integrating MLLMs into visual tracking.'"

ArXiv2025年12月28日 06:12

* 根据版权法第32条进行合法引用。

较旧

Evaluating the Performance of Open-Vocabulary Object Detection in Low-quality Image

较新

3-Crossed modules, Quasi-categories, and the Moore complex

VPTracker：基于MLLM的全局视觉-语言跟踪

分析

要点

相关分析

从未对齐图像即时进行3D场景编辑

基于选择策略的协调人形机器人操作

用于未来预测的LLM预测

📬 获取AI新闻

按类别浏览

热门话题

📬 获取AI新闻

按类别浏览

热门话题