VideoZoomer: 長い動画理解のための動的時系列フォーカス

Paper#LLM🔬 Research|分析: 2026年1月3日 20:19
公開: 2025年12月26日 11:43
1分で読める
ArXiv

分析

この論文は、長い動画理解におけるMLLMの限界に対処する新しいフレームワーク、VideoZoomerを紹介しています。強化学習エージェントによる動的時系列フォーカスを可能にすることで、VideoZoomerは限られたコンテキストウィンドウと静的なフレーム選択の制約を克服します。教師ありファインチューニングと強化学習を組み合わせた2段階のトレーニング戦略は、このアプローチの重要な側面です。結果は既存のモデルよりも大幅なパフォーマンス向上を示しており、提案された方法の有効性を強調しています。
引用・出典
原文を見る
"VideoZoomer invokes a temporal zoom tool to obtain high-frame-rate clips at autonomously chosen moments, thereby progressively gathering fine-grained evidence in a multi-turn interactive manner."
A
ArXiv2025年12月26日 11:43
* 著作権法第32条に基づく適法な引用です。