用于时间定位视频-语言模型的分解学习
Research Paper#Video-Language Modeling, Temporal Grounding, AI🔬 Research|分析: 2026年1月3日 17:03•
发布: 2025年12月30日 09:13
•1分で読める
•ArXiv分析
本文解决了视频-语言模型中准确的时间定位问题,这是视频理解的关键方面。它提出了一个新颖的框架D^2VLM,将时间定位和文本响应生成解耦,并认识到它们之间的层次关系。证据token的引入和分解偏好优化(FPO)算法是关键贡献。使用合成数据集进行分解偏好学习也很重要。本文侧重于事件级感知和“先定位后回答”的范式,是改进视频理解的有前景的方法。