LVLDrive:3D空間理解による自動運転の強化

Paper#autonomous driving, vision-language models, LiDAR, 3D perception🔬 Research|分析: 2026年1月3日 15:38
公開: 2025年12月30日 16:35
1分で読める
ArXiv

分析

本論文は、自動運転におけるVision-Language Models (VLMs) の重要な制限事項、つまり空間推論における2D画像キューへの依存性に対処しています。 LiDARデータを統合することにより、提案されたLVLDriveフレームワークは、運転判断の精度と信頼性を向上させることを目指しています。 事前学習済みのVLMへの影響を軽減するためのGradual Fusion Q-Formerの使用と、空間認識質問応答データセットの開発が重要な貢献です。 3Dメトリックデータに焦点を当てることで、信頼できるVLMベースの自律システムを構築するための重要な方向性が示されています。
引用・出典
原文を見る
"LVLDrive achieves superior performance compared to vision-only counterparts across scene understanding, metric spatial perception, and reliable driving decision-making."
A
ArXiv2025年12月30日 16:35
* 著作権法第32条に基づく適法な引用です。