Dream-VL & Dream-VLA:拡散型言語モデルを基盤としたロボット工学向けビジョン・言語モデル

公開:2025年12月27日 14:46
1分で読める
ArXiv

分析

本論文は、拡散型大規模言語モデル(dLLM)を基盤とした、Dream-VLおよびDream-VLAという新しいビジョン・言語モデルとビジョン・言語・アクションモデルを紹介しています。主な革新点は、拡散モデルの双方向性を活用して、視覚的計画とロボット制御タスク、特にアクションチャンキングと並列生成におけるパフォーマンスを向上させている点です。著者は、いくつかのベンチマークで最先端の結果を示し、これらの分野における自己回帰モデルに対するdLLMの可能性を強調しています。モデルの公開は、さらなる研究を促進します。

参照

Dream-VLAは、LIBEROで97.2%の平均成功率、SimplerEnv-Bridgeで71.4%の全体平均、SimplerEnv-Fractalで60.5%の全体平均というトップレベルのパフォーマンスを達成し、$π_0$やGR00T-N1などの主要モデルを上回っています。