MCPAgentBench: 実世界のツールを用いたLLMエージェントの評価
Research Paper#LLM Agents, Tool Use, Benchmarking🔬 Research|分析: 2026年1月3日 09:18•
公開: 2025年12月31日 02:09
•1分で読める
•ArXiv分析
この論文は、現在のLLMエージェント評価方法の限界、特にModel Context Protocol (MCP) を介したツール使用に焦点を当てています。外部サービスへの依存や難易度認識の欠如といった問題を克服するために設計された新しいベンチマーク、MCPAgentBenchを紹介しています。このベンチマークは、現実世界のMCP定義、本物のタスク、およびディストラクタを備えた動的サンドボックス環境を使用して、ツールの選択と識別能力をテストします。この論文の重要性は、LLMエージェントの複雑で多段階のツール呼び出し能力を向上させるために不可欠な、より現実的で挑戦的な評価フレームワークを提供することにあります。