MedBench v4: 用于评估中文医疗语言模型、多模态模型和智能代理的稳健且可扩展的基准

Research #LLM 🔬 Research|分析: 2026年1月10日 14:37•

发布: 2025年11月18日 12:37

•

1分で読める

分析

这项研究介绍了MedBench v4，对评估中文医疗AI做出了重大贡献。该基准重点关注可扩展性和鲁棒性，表明了一种积极主动的方法来应对日益复杂的医疗AI模型。

引用 / 来源

"MedBench v4 is a benchmark designed for evaluating Chinese Medical Language Models, Multimodal Models, and Intelligent Agents."

ArXiv2025年11月18日 12:37

* 根据版权法第32条进行合法引用。

Agent-R1: Advancing LLM Agents with End-to-End Reinforcement Learning

EulerESG: LLM-Powered Automation for ESG Disclosure Analysis