GPT-5 在医疗评估中性能下降

发布:2025年8月21日 22:52
1分で読める
Hacker News

分析

这篇文章报告了一个令人惊讶的发现:GPT-5 在医疗保健评估 (MedHELM) 中表现出相对于 GPT-4 的轻微退步。这表明较新的模型并不总是更好,并强调了在不同领域进行严格评估的重要性。提供的 PDF 链接允许更深入地研究具体结果和方法。

引用

作者发现 GPT-5 的性能相对于 GPT-4 时代的模型略有下降。