ナビゲーションエージェントとしてのMLLM:診断フレームワーク
分析
この論文は、Vision-and-Language Navigation (VLN)タスクにおけるエージェントとして、Multimodal Large Language Models (MLLMs)を評価するためのフレームワーク、VLN-MMEを紹介しています。これは、MLLMsのマルチラウンド対話、空間推論、およびシーケンシャルアクション予測における能力を評価するための標準化されたベンチマークを提供するため重要です。これらの能力は、MLLMsのパフォーマンスがまだ十分に探求されていない領域です。モジュール設計により、さまざまなMLLMアーキテクチャとエージェント設計間の比較とアブレーション研究が容易になります。Chain-of-Thought推論と自己反省がパフォーマンスを低下させるという発見は、組み込みナビゲーションにおけるMLLMsのコンテキスト認識と3D空間推論における重要な制限を浮き彫りにしています。