MCPAgentBench: 実世界のツールを用いたLLMエージェントの評価

Research Paper#LLM Agents, Tool Use, Benchmarking🔬 Research|分析: 2026年1月3日 09:18
公開: 2025年12月31日 02:09
1分で読める
ArXiv

分析

この論文は、現在のLLMエージェント評価方法の限界、特にModel Context Protocol (MCP) を介したツール使用に焦点を当てています。外部サービスへの依存や難易度認識の欠如といった問題を克服するために設計された新しいベンチマーク、MCPAgentBenchを紹介しています。このベンチマークは、現実世界のMCP定義、本物のタスク、およびディストラクタを備えた動的サンドボックス環境を使用して、ツールの選択と識別能力をテストします。この論文の重要性は、LLMエージェントの複雑で多段階のツール呼び出し能力を向上させるために不可欠な、より現実的で挑戦的な評価フレームワークを提供することにあります。
引用・出典
原文を見る
"The evaluation employs a dynamic sandbox environment that presents agents with candidate tool lists containing distractors, thereby testing their tool selection and discrimination abilities."
A
ArXiv2025年12月31日 02:09
* 著作権法第32条に基づく適法な引用です。