時間的グラウンディングのためのビデオ言語モデルにおける因数分解学習

Research Paper#Video-Language Modeling, Temporal Grounding, AI🔬 Research|分析: 2026年1月3日 17:03
公開: 2025年12月30日 09:13
1分で読める
ArXiv

分析

この論文は、ビデオ理解の重要な側面である、ビデオ言語モデルにおける正確な時間的グラウンディングの課題に取り組んでいます。時間的グラウンディングとテキスト応答生成を分離し、それらの階層的関係を認識する新しいフレームワーク、D^2VLMを提案しています。証拠トークンの導入と、因数分解された選好最適化(FPO)アルゴリズムが重要な貢献です。因数分解された選好学習のための合成データセットの使用も重要です。イベントレベルの知覚と「グラウンディングしてから回答する」パラダイムに焦点を当てていることは、ビデオ理解を改善するための有望なアプローチです。
引用・出典
原文を見る
"The paper introduces evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation."
A
ArXiv2025年12月30日 09:13
* 著作権法第32条に基づく適法な引用です。