Paper#LLM🔬 Research分析: 2026年1月3日 20:19

VideoZoomer: 用于长视频理解的动态时间聚焦

发布:2025年12月26日 11:43
1分で読める
ArXiv

分析

本文介绍了VideoZoomer,一个解决多模态大型语言模型(MLLMs)在长视频理解方面局限性的新框架。通过强化学习代理实现动态时间聚焦,VideoZoomer克服了有限上下文窗口和静态帧选择的限制。结合监督微调和强化学习的两阶段训练策略是该方法的一个关键方面。结果表明,VideoZoomer在性能上优于现有模型,突出了所提出方法的有效性。

引用

VideoZoomer调用时间缩放工具,在自主选择的时刻获取高帧率剪辑,从而以多轮交互的方式逐步收集细粒度的证据。