Mirror AI、内分泌学試験でLLMを圧倒、エビデンスに基づいた推論で成功

research#llm🔬 Research|分析: 2026年2月19日 05:02
公開: 2026年2月19日 05:00
1分で読める
ArXiv AI

分析

この研究は、医療用途におけるAIの興奮を呼ぶ進歩を示しています!「Mirror」システムは、困難な内分泌学試験で優れたパフォーマンスを示し、厳選されたエビデンスに基づいて推論することにより、最先端の 大規模言語モデル (LLM) を大幅に上回っています。このアプローチは、より信頼性が高く、監査可能な臨床AIへの道筋を提供します。
引用・出典
原文を見る
"Mirrorは87.5%の正答率(120問中105問; 95% CI: 80.4-92.3%)を達成し、人間の基準である62.3%と、GPT-5.2(74.6%)、GPT-5(74.0%)、Gemini-3-Pro(69.8%)を含む最先端のLLMを上回りました。"
A
ArXiv AI2026年2月19日 05:00
* 著作権法第32条に基づく適法な引用です。