Scene-VLM：ビジョン言語モデルによるビデオシーンセグメンテーション

Paper #Video Understanding, Vision-Language Models, Scene Segmentation 🔬 Research|分析: 2026年1月4日 00:06•

公開: 2025年12月25日 20:31

•

1分で読める

分析

本論文は、ファインチューニングされたビジョン言語モデルを用いたビデオシーンセグメンテーションの新しいアプローチであるScene-VLMを紹介しています。既存の手法の限界を、マルチモーダルキュー（フレーム、トランスクリプション、メタデータ）の組み込み、シーケンシャル推論の実現、説明可能性の提供によって克服しています。自然言語による根拠生成能力と、ベンチマークにおける最先端の性能達成は、その重要性を示しています。

重要ポイント

引用・出典

原文を見る

"Scene-VLM yields significant improvements of +6 AP and +13.7 F1 over the previous leading method on MovieNet."

ArXiv2025年12月25日 20:31

* 著作権法第32条に基づく適法な引用です。

古い記事

8点1氪丨小米辟谣“17 Ultra徕卡版变焦环造假”；最高降30万，宝马中国回应30多款车型降价；Netflix收购华纳后拟将上映期缩至17天

新しい記事

A Three-Level Alignment Framework for Large-Scale 3D Retrieval and Controlled 4D Generation

Scene-VLM：ビジョン言語モデルによるビデオシーンセグメンテーション

分析

重要ポイント

関連分析

選択ポリシーを用いた協調型人型ロボット操作

未ポーズ画像からの即時3Dシーン編集

将来予測のためのLLMフォアキャスティング

📬 AIニュースを受信

カテゴリで探す

トレンドトピック

📬 AIニュースを受信

カテゴリで探す

トレンドトピック