MCPAgentBench: 使用真实世界工具评估 LLM Agent

Research Paper#LLM Agents, Tool Use, Benchmarking🔬 Research|分析: 2026年1月3日 09:18
发布: 2025年12月31日 02:09
1分で読める
ArXiv

分析

本文解决了当前 LLM agent 评估方法的局限性,特别关注通过 Model Context Protocol (MCP) 进行的工具使用。它引入了一个新的基准 MCPAgentBench,旨在克服对外部服务的依赖以及缺乏难度意识等问题。该基准使用真实世界的 MCP 定义、真实的任务以及一个带有干扰项的动态沙盒环境来测试工具选择和辨别能力。本文的意义在于为 LLM agent 提供了更现实、更具挑战性的评估框架,这对于提高它们在复杂、多步骤工具调用中的能力至关重要。
引用 / 来源
查看原文
"The evaluation employs a dynamic sandbox environment that presents agents with candidate tool lists containing distractors, thereby testing their tool selection and discrimination abilities."
A
ArXiv2025年12月31日 02:09
* 根据版权法第32条进行合法引用。