時間的グラウンディングのためのビデオ言語モデルにおける因数分解学習
Research Paper#Video-Language Modeling, Temporal Grounding, AI🔬 Research|分析: 2026年1月3日 17:03•
公開: 2025年12月30日 09:13
•1分で読める
•ArXiv分析
この論文は、ビデオ理解の重要な側面である、ビデオ言語モデルにおける正確な時間的グラウンディングの課題に取り組んでいます。時間的グラウンディングとテキスト応答生成を分離し、それらの階層的関係を認識する新しいフレームワーク、D^2VLMを提案しています。証拠トークンの導入と、因数分解された選好最適化(FPO)アルゴリズムが重要な貢献です。因数分解された選好学習のための合成データセットの使用も重要です。イベントレベルの知覚と「グラウンディングしてから回答する」パラダイムに焦点を当てていることは、ビデオ理解を改善するための有望なアプローチです。