Scene-VLM:ビジョン言語モデルによるビデオシーンセグメンテーション

Paper#Video Understanding, Vision-Language Models, Scene Segmentation🔬 Research|分析: 2026年1月4日 00:06
公開: 2025年12月25日 20:31
1分で読める
ArXiv

分析

本論文は、ファインチューニングされたビジョン言語モデルを用いたビデオシーンセグメンテーションの新しいアプローチであるScene-VLMを紹介しています。既存の手法の限界を、マルチモーダルキュー(フレーム、トランスクリプション、メタデータ)の組み込み、シーケンシャル推論の実現、説明可能性の提供によって克服しています。自然言語による根拠生成能力と、ベンチマークにおける最先端の性能達成は、その重要性を示しています。
引用・出典
原文を見る
"Scene-VLM yields significant improvements of +6 AP and +13.7 F1 over the previous leading method on MovieNet."
A
ArXiv2025年12月25日 20:31
* 著作権法第32条に基づく適法な引用です。