Dream-VL & Dream-VLA:基于扩散语言模型的机器人视觉-语言模型

Research Paper#Vision-Language Models, Robotics, Diffusion Models🔬 Research|分析: 2026年1月3日 19:51
发布: 2025年12月27日 14:46
1分で読める
ArXiv

分析

本文介绍了Dream-VL和Dream-VLA,这两种基于扩散型大型语言模型(dLLM)的新型视觉-语言和视觉-语言-动作模型。 关键创新在于利用扩散模型的双向性来提高视觉规划和机器人控制任务的性能,特别是动作分块和并行生成。 作者在多个基准测试中展示了最先进的结果,突出了dLLM在这些领域优于自回归模型的潜力。 模型的发布促进了进一步的研究。
引用 / 来源
查看原文
"Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as $π_0$ and GR00T-N1."
A
ArXiv2025年12月27日 14:46
* 根据版权法第32条进行合法引用。