Video-BrowseComp: 基于代理的视频研究基准

Paper#AI Benchmarking🔬 Research|分析: 2026年1月3日 19:18
发布: 2025年12月28日 19:08
1分で読める
ArXiv

分析

本文介绍了Video-BrowseComp,这是一个新的基准,旨在评估AI模型的代理视频推理能力。它通过关注开放网络上视频内容的动态性质,从被动感知转向主动研究,从而解决了该领域的一个重大差距。该基准强调时间视觉证据和开放网络检索,这使其成为对当前模型的具有挑战性的测试,突出了它们在理解和推理视频内容方面的局限性,特别是在元数据稀疏的环境中。本文的贡献在于为AI代理提供了一个更现实、更具挑战性的评估框架。
引用 / 来源
查看原文
"Even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24% accuracy."
A
ArXiv2025年12月28日 19:08
* 根据版权法第32条进行合法引用。