MM-UAVBench: 评估用于低空无人机的多模态大语言模型Paper#llm🔬 Research|分析: 2026年1月3日 19:05•发布: 2025年12月29日 05:49•1分で読める•ArXiv分析本文介绍了 MM-UAVBench,这是一个新的基准,旨在评估多模态大型语言模型 (MLLM) 在低空无人机 (UAV) 场景中的表现。其意义在于弥补了当前 MLLM 基准测试的不足,这些基准测试通常忽略了 UAV 应用的特定挑战。该基准测试侧重于感知、认知和规划,这些对于 UAV 智能至关重要。本文的价值在于提供了一个标准化的评估框架,并突出了现有 MLLM 在该领域的局限性,从而指导未来的研究。要点•MM-UAVBench 是一个用于评估低空无人机场景中 MLLM 的新基准。•该基准评估感知、认知和规划能力。•实验揭示了当前 MLLM 在该领域的局限性。•该基准使用真实世界的无人机数据,包含超过 5700 个问题。引用 / 来源查看原文"Current models struggle to adapt to the complex visual and cognitive demands of low-altitude scenarios."AArXiv2025年12月29日 05:49* 根据版权法第32条进行合法引用。较旧The five-vertex model as a discrete log-gas较新TCEval: Using Thermal Comfort to Assess Cognitive and Perceptual Abilities of AI相关分析Paper基于选择策略的协调人形机器人操作2026年1月3日 06:10Paper从未对齐图像即时进行3D场景编辑2026年1月3日 06:10Paper用于未来预测的LLM预测2026年1月3日 06:10来源: ArXiv