Scene-VLM:ビジョン言語モデルによるビデオシーンセグメンテーション

公開:2025年12月25日 20:31
1分で読める
ArXiv

分析

本論文は、ファインチューニングされたビジョン言語モデルを用いたビデオシーンセグメンテーションの新しいアプローチであるScene-VLMを紹介しています。既存の手法の限界を、マルチモーダルキュー(フレーム、トランスクリプション、メタデータ)の組み込み、シーケンシャル推論の実現、説明可能性の提供によって克服しています。自然言語による根拠生成能力と、ベンチマークにおける最先端の性能達成は、その重要性を示しています。

参照

MovieNetにおいて、Scene-VLMは、以前の最先端手法と比較して+6 APと+13.7 F1の大幅な改善を達成しています。