Video-BrowseComp: エージェント型動画研究のベンチマーク

Paper #AI Benchmarking 🔬 Research|分析: 2026年1月3日 19:18•

公開: 2025年12月28日 19:08

•

1分で読める

分析

本論文は、AIモデルのエージェント型動画推論能力を評価するために設計された新しいベンチマーク、Video-BrowseCompを紹介しています。これは、オープンウェブ上の動画コンテンツの動的な性質に焦点を当て、受動的な知覚から積極的な研究へと移行することにより、この分野における大きなギャップに対処しています。時間的な視覚的証拠とオープンウェブ検索を重視するこのベンチマークは、現在のモデルにとって困難なテストとなり、特にメタデータが少ない環境において、動画コンテンツの理解と推論における限界を浮き彫りにしています。本論文の貢献は、AIエージェントのためのより現実的で要求の厳しい評価フレームワークを提供することにあります。

重要ポイント

引用・出典

原文を見る

"Even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24% accuracy."

ArXiv2025年12月28日 19:08

* 著作権法第32条に基づく適法な引用です。

古い記事

User-Centric Cell-Free Massive MIMO Enhanced by Fluid-Antenna Access Points: Uplink Analysis

新しい記事

Mechanistic Analysis of Circuit Preservation in Federated Learning

Video-BrowseComp: エージェント型動画研究のベンチマーク

分析

重要ポイント

関連分析

選択ポリシーを用いた協調型人型ロボット操作

未ポーズ画像からの即時3Dシーン編集

将来予測のためのLLMフォアキャスティング

📬 AIニュースを受信

カテゴリで探す

トレンドトピック

📬 AIニュースを受信

カテゴリで探す

トレンドトピック