TV-RAG:時間的および意味的認識による長尺動画理解の強化

公開:2025年12月29日 14:10
1分で読める
ArXiv

分析

この論文は、長尺動画を扱う際のLarge Video Language Models (LVLMs) の限界に対処しています。時間的アライメントとエントロピー誘導セマンティクスを組み込むことで、長尺動画の推論を改善する、トレーニング不要のアーキテクチャであるTV-RAGを提案しています。主な貢献は、時間減衰検索モジュールとエントロピー加重キーフレームサンプラーであり、既存のLVLMの軽量で予算に優しいアップグレードパスを可能にします。この論文の重要性は、再トレーニングを必要とせずに長尺動画ベンチマークでのパフォーマンスを向上させる能力にあり、動画理解能力を強化するための実用的なソリューションを提供しています。

参照

TV-RAGは、再トレーニングや微調整なしに、あらゆるLVLMに適用できる二重レベルの推論ルーチンを実現します。