Dream-VL & Dream-VLA:拡散型言語モデルを基盤としたロボット工学向けビジョン・言語モデル

Research Paper#Vision-Language Models, Robotics, Diffusion Models🔬 Research|分析: 2026年1月3日 19:51
公開: 2025年12月27日 14:46
1分で読める
ArXiv

分析

本論文は、拡散型大規模言語モデル(dLLM)を基盤とした、Dream-VLおよびDream-VLAという新しいビジョン・言語モデルとビジョン・言語・アクションモデルを紹介しています。主な革新点は、拡散モデルの双方向性を活用して、視覚的計画とロボット制御タスク、特にアクションチャンキングと並列生成におけるパフォーマンスを向上させている点です。著者は、いくつかのベンチマークで最先端の結果を示し、これらの分野における自己回帰モデルに対するdLLMの可能性を強調しています。モデルの公開は、さらなる研究を促進します。
引用・出典
原文を見る
"Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as $π_0$ and GR00T-N1."
A
ArXiv2025年12月27日 14:46
* 著作権法第32条に基づく適法な引用です。