用于统一场景理解和多模态生成的3D高斯驾驶世界模型

Paper#3D Scene Understanding, Multi-Modal Generation, Driving World Models, Gaussian Representation, LLM🔬 Research|分析: 2026年1月3日 19:07
发布: 2025年12月29日 03:40
1分で読める
ArXiv

分析

本文介绍了一种新的驾驶世界模型(DWM),该模型利用3D高斯场景表示来改进驾驶环境中的场景理解和多模态生成。关键创新在于通过将语言特征嵌入到高斯基元中,将文本信息直接与3D场景对齐,从而实现更好的上下文和推理。本文通过结合3D场景理解、多模态生成和上下文增强来解决现有DWM的局限性。使用任务感知语言引导的采样策略和双条件多模态生成模型进一步增强了框架的功能。作者在nuScenes和NuInteract数据集上使用最先进的结果验证了他们的方法,并计划发布他们的代码,使其成为该领域的一项宝贵贡献。
引用 / 来源
查看原文
"Our approach directly aligns textual information with the 3D scene by embedding rich linguistic features into each Gaussian primitive, thereby achieving early modality alignment."
A
ArXiv2025年12月29日 03:40
* 根据版权法第32条进行合法引用。