LVLDrive:3D空間理解による自動運転の強化
Paper#autonomous driving, vision-language models, LiDAR, 3D perception🔬 Research|分析: 2026年1月3日 15:38•
公開: 2025年12月30日 16:35
•1分で読める
•ArXiv分析
本論文は、自動運転におけるVision-Language Models (VLMs) の重要な制限事項、つまり空間推論における2D画像キューへの依存性に対処しています。 LiDARデータを統合することにより、提案されたLVLDriveフレームワークは、運転判断の精度と信頼性を向上させることを目指しています。 事前学習済みのVLMへの影響を軽減するためのGradual Fusion Q-Formerの使用と、空間認識質問応答データセットの開発が重要な貢献です。 3Dメトリックデータに焦点を当てることで、信頼できるVLMベースの自律システムを構築するための重要な方向性が示されています。