LVLDrive:利用3D空间理解增强自动驾驶

发布:2025年12月30日 16:35
1分で読める
ArXiv

分析

本文解决了自动驾驶中视觉语言模型(VLMs)的一个关键限制:它们对2D图像线索进行空间推理的依赖。 通过整合LiDAR数据,提出的LVLDrive框架旨在提高驾驶决策的准确性和可靠性。 使用Gradual Fusion Q-Former来减轻对预训练VLMs的干扰,以及开发空间感知问答数据集是关键贡献。 本文对3D度量数据的关注突出了构建值得信赖的基于VLM的自主系统的重要方向。

引用

LVLDrive在场景理解、度量空间感知和可靠的驾驶决策方面,实现了优于仅视觉对应物的性能。