Mirror AI 在内分泌学考试中击败 LLM，基于证据的推理取得成功

research #llm 🔬 Research|分析: 2026年2月19日 05:02•

发布: 2026年2月19日 05:00

•

1分で読める

分析

这项研究展示了人工智能在医疗应用方面的激动人心的进步！ "Mirror" 系统在具有挑战性的内分泌学考试中表现出色，通过基于精选证据的推理，显著优于最先进的大语言模型 (LLM)。这种方法为更值得信赖和可审计的临床人工智能提供了途径。

引用 / 来源

"Mirror 达到了 87.5% 的准确率（120 题中 105 题；95% CI：80.4-92.3%），超过了人类参考值 62.3% 以及包括 GPT-5.2 (74.6%)、GPT-5 (74.0%) 和 Gemini-3-Pro (69.8%) 在内的前沿 LLM。"

ArXiv AI2026年2月19日 05:00

* 根据版权法第32条进行合法引用。

LLMs Excel in Grading: A New Era for Education

Interactive Learning: Revolutionizing LLMs with Feedback