ナビゲーションエージェントとしてのMLLM:診断フレームワーク

Paper#llm🔬 Research|分析: 2026年1月3日 06:24
公開: 2025年12月31日 13:21
1分で読める
ArXiv

分析

この論文は、Vision-and-Language Navigation (VLN)タスクにおけるエージェントとして、Multimodal Large Language Models (MLLMs)を評価するためのフレームワーク、VLN-MMEを紹介しています。これは、MLLMsのマルチラウンド対話、空間推論、およびシーケンシャルアクション予測における能力を評価するための標準化されたベンチマークを提供するため重要です。これらの能力は、MLLMsのパフォーマンスがまだ十分に探求されていない領域です。モジュール設計により、さまざまなMLLMアーキテクチャとエージェント設計間の比較とアブレーション研究が容易になります。Chain-of-Thought推論と自己反省がパフォーマンスを低下させるという発見は、組み込みナビゲーションにおけるMLLMsのコンテキスト認識と3D空間推論における重要な制限を浮き彫りにしています。
引用・出典
原文を見る
"Enhancing the baseline agent with Chain-of-Thought (CoT) reasoning and self-reflection leads to an unexpected performance decrease, suggesting MLLMs exhibit poor context awareness in embodied navigation tasks."
A
ArXiv2025年12月31日 13:21
* 著作権法第32条に基づく適法な引用です。