Dream-VL & Dream-VLA:拡散型言語モデルを基盤としたロボット工学向けビジョン・言語モデル
Research Paper#Vision-Language Models, Robotics, Diffusion Models🔬 Research|分析: 2026年1月3日 19:51•
公開: 2025年12月27日 14:46
•1分で読める
•ArXiv分析
本論文は、拡散型大規模言語モデル(dLLM)を基盤とした、Dream-VLおよびDream-VLAという新しいビジョン・言語モデルとビジョン・言語・アクションモデルを紹介しています。主な革新点は、拡散モデルの双方向性を活用して、視覚的計画とロボット制御タスク、特にアクションチャンキングと並列生成におけるパフォーマンスを向上させている点です。著者は、いくつかのベンチマークで最先端の結果を示し、これらの分野における自己回帰モデルに対するdLLMの可能性を強調しています。モデルの公開は、さらなる研究を促進します。