Mirror AI、内分泌学試験でLLMを圧倒、エビデンスに基づいた推論で成功research#llm🔬 Research|分析: 2026年2月19日 05:02•公開: 2026年2月19日 05:00•1分で読める•ArXiv AI分析この研究は、医療用途におけるAIの興奮を呼ぶ進歩を示しています!「Mirror」システムは、困難な内分泌学試験で優れたパフォーマンスを示し、厳選されたエビデンスに基づいて推論することにより、最先端の 大規模言語モデル (LLM) を大幅に上回っています。このアプローチは、より信頼性が高く、監査可能な臨床AIへの道筋を提供します。重要ポイント•Mirrorのエビデンスに基づいたアプローチは、内分泌学試験で87.5%の精度を達成しました。•このAIはGPT-5.2、GPT-5、Gemini-3-Proを上回り、優れた臨床推論を実証しました。•システムの出力は追跡可能で、監査のためにガイドラインソースを引用しています。引用・出典原文を見る"Mirrorは87.5%の正答率(120問中105問; 95% CI: 80.4-92.3%)を達成し、人間の基準である62.3%と、GPT-5.2(74.6%)、GPT-5(74.0%)、Gemini-3-Pro(69.8%)を含む最先端のLLMを上回りました。"AArXiv AI2026年2月19日 05:00* 著作権法第32条に基づく適法な引用です。古い記事LLMs Excel in Grading: A New Era for Education新しい記事Interactive Learning: Revolutionizing LLMs with Feedback関連分析researchAnthropic、AIエージェントの権限を調査:AIインタラクションの未来を解き明かす2026年2月19日 06:30researchインタラクティブ学習:フィードバックでLLMを革新2026年2月19日 05:02researchLLMが採点に優れる:教育の新時代到来2026年2月19日 05:02原文: ArXiv AI