LVLDrive:利用3D空间理解增强自动驾驶

Paper#autonomous driving, vision-language models, LiDAR, 3D perception🔬 Research|分析: 2026年1月3日 15:38
发布: 2025年12月30日 16:35
1分で読める
ArXiv

分析

本文解决了自动驾驶中视觉语言模型(VLMs)的一个关键限制:它们对2D图像线索进行空间推理的依赖。 通过整合LiDAR数据,提出的LVLDrive框架旨在提高驾驶决策的准确性和可靠性。 使用Gradual Fusion Q-Former来减轻对预训练VLMs的干扰,以及开发空间感知问答数据集是关键贡献。 本文对3D度量数据的关注突出了构建值得信赖的基于VLM的自主系统的重要方向。
引用 / 来源
查看原文
"LVLDrive achieves superior performance compared to vision-only counterparts across scene understanding, metric spatial perception, and reliable driving decision-making."
A
ArXiv2025年12月30日 16:35
* 根据版权法第32条进行合法引用。