Mirror AI 在内分泌学考试中击败 LLM,基于证据的推理取得成功research#llm🔬 Research|分析: 2026年2月19日 05:02•发布: 2026年2月19日 05:00•1分で読める•ArXiv AI分析这项研究展示了人工智能在医疗应用方面的激动人心的进步! "Mirror" 系统在具有挑战性的内分泌学考试中表现出色,通过基于精选证据的推理,显著优于最先进的 大语言模型 (LLM)。 这种方法为更值得信赖和可审计的临床人工智能提供了途径。要点•Mirror 基于证据的方法在内分泌学委员会风格的考试中取得了 87.5% 的准确率。•该人工智能优于 GPT-5.2、GPT-5 和 Gemini-3-Pro,展示了卓越的临床推理能力。•该系统的输出可追溯,引用了指导方针来源以供审计。引用 / 来源查看原文"Mirror 达到了 87.5% 的准确率(120 题中 105 题;95% CI:80.4-92.3%),超过了人类参考值 62.3% 以及包括 GPT-5.2 (74.6%)、GPT-5 (74.0%) 和 Gemini-3-Pro (69.8%) 在内的前沿 LLM。"AArXiv AI2026年2月19日 05:00* 根据版权法第32条进行合法引用。较旧LLMs Excel in Grading: A New Era for Education较新Interactive Learning: Revolutionizing LLMs with Feedback相关分析research革新AI评估:为多轮智能体模拟真实用户2026年4月2日 18:00research麻省理工学院研究:人工智能对就业的影响将是上升的浪潮,而非崩溃的巨浪!2026年4月2日 18:00research在“无GPU”笔记本电脑上使用 LLM 构建本地 AI 智能体2026年4月2日 08:15来源: ArXiv AI