Dr.Mi-Bench：用于科学深度研究Agent的模块化集成基准

Research #llm 🔬 Research|分析: 2026年1月4日 10:38•

发布: 2025年11月30日 17:16

•

1分で読める

分析

这篇文章介绍了 Dr.Mi-Bench，这是一个为评估科学深度研究代理而设计的新基准。模块化集成的重点表明，这是一个用于评估这些代理能力的灵活且适应性强的框架。使用“科学深度研究”意味着侧重于复杂、知识密集型任务。

引用 / 来源

"Dr.Mi-Bench: A Modular-integrated Benchmark for Scientific Deep Research Agent"

ArXiv2025年11月30日 17:16

* 根据版权法第32条进行合法引用。

Automatic Differentiation in Machine Learning: A Survey [pdf]

OpenAI Cookbook