Scene-VLM：基于视觉语言模型的视频场景分割

发布: 2025年12月25日 20:31

•

1分で読める

分析

本文介绍了Scene-VLM，一种使用微调视觉语言模型进行视频场景分割的新方法。它通过结合多模态线索（帧、转录、元数据）、实现顺序推理和提供可解释性，解决了现有方法的局限性。该模型生成自然语言推理的能力以及在基准测试中达到最先进的性能，突显了其重要性。

引用 / 来源

"Scene-VLM yields significant improvements of +6 AP and +13.7 F1 over the previous leading method on MovieNet."

ArXiv2025年12月25日 20:31

* 根据版权法第32条进行合法引用。

8点1氪丨小米辟谣“17 Ultra徕卡版变焦环造假”；最高降30万，宝马中国回应30多款车型降价；Netflix收购华纳后拟将上映期缩至17天

A Three-Level Alignment Framework for Large-Scale 3D Retrieval and Controlled 4D Generation