Dream-VL & Dream-VLA:基于扩散语言模型的机器人视觉-语言模型
Research Paper#Vision-Language Models, Robotics, Diffusion Models🔬 Research|分析: 2026年1月3日 19:51•
发布: 2025年12月27日 14:46
•1分で読める
•ArXiv分析
本文介绍了Dream-VL和Dream-VLA,这两种基于扩散型大型语言模型(dLLM)的新型视觉-语言和视觉-语言-动作模型。 关键创新在于利用扩散模型的双向性来提高视觉规划和机器人控制任务的性能,特别是动作分块和并行生成。 作者在多个基准测试中展示了最先进的结果,突出了dLLM在这些领域优于自回归模型的潜力。 模型的发布促进了进一步的研究。