Video-BrowseComp: 基于代理的视频研究基准
分析
本文介绍了Video-BrowseComp,这是一个新的基准,旨在评估AI模型的代理视频推理能力。它通过关注开放网络上视频内容的动态性质,从被动感知转向主动研究,从而解决了该领域的一个重大差距。该基准强调时间视觉证据和开放网络检索,这使其成为对当前模型的具有挑战性的测试,突出了它们在理解和推理视频内容方面的局限性,特别是在元数据稀疏的环境中。本文的贡献在于为AI代理提供了一个更现实、更具挑战性的评估框架。
要点
引用
“即使是像GPT-5.1 (w/ Search)这样先进的搜索增强模型,也仅实现了15.24%的准确率。”