用于时间定位视频-语言模型的分解学习

Research Paper#Video-Language Modeling, Temporal Grounding, AI🔬 Research|分析: 2026年1月3日 17:03
发布: 2025年12月30日 09:13
1分で読める
ArXiv

分析

本文解决了视频-语言模型中准确的时间定位问题,这是视频理解的关键方面。它提出了一个新颖的框架D^2VLM,将时间定位和文本响应生成解耦,并认识到它们之间的层次关系。证据token的引入和分解偏好优化(FPO)算法是关键贡献。使用合成数据集进行分解偏好学习也很重要。本文侧重于事件级感知和“先定位后回答”的范式,是改进视频理解的有前景的方法。
引用 / 来源
查看原文
"The paper introduces evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation."
A
ArXiv2025年12月30日 09:13
* 根据版权法第32条进行合法引用。