增强视频LLM：基于检测器的时空推理

Research #Video LLM 🔬 Research|分析: 2026年1月10日 12:54•

发布: 2025年12月7日 06:11

•

1分で読める

分析

这项研究探索了通过目标检测能力增强视频大型语言模型 (LLM)，从而改进其时空推理的可能。这篇论文的贡献在于检测器的集成，这可能使 LLM 能够更有效地理解和推理视频内容。

引用 / 来源

"The research focuses on detector-empowered video large language models."

ArXiv2025年12月7日 06:11

* 根据版权法第32条进行合法引用。

CMV-Fuse: Novel Cross-Modal Fusion Approach for Aspect-Based Sentiment Analysis

CoT4Det: Chain-of-Thought Revolutionizes Vision-Language Tasks