Video-BrowseComp: エージェント型動画研究のベンチマーク
分析
本論文は、AIモデルのエージェント型動画推論能力を評価するために設計された新しいベンチマーク、Video-BrowseCompを紹介しています。これは、オープンウェブ上の動画コンテンツの動的な性質に焦点を当て、受動的な知覚から積極的な研究へと移行することにより、この分野における大きなギャップに対処しています。時間的な視覚的証拠とオープンウェブ検索を重視するこのベンチマークは、現在のモデルにとって困難なテストとなり、特にメタデータが少ない環境において、動画コンテンツの理解と推論における限界を浮き彫りにしています。本論文の貢献は、AIエージェントのためのより現実的で要求の厳しい評価フレームワークを提供することにあります。
重要ポイント
参照
“GPT-5.1 (w/ Search)のような高度な検索拡張モデルでさえ、15.24%の精度しか達成していません。”