GPT-5 在医疗评估中性能下降
分析
这篇文章报告了一个令人惊讶的发现:GPT-5 在医疗保健评估 (MedHELM) 中表现出相对于 GPT-4 的轻微退步。这表明较新的模型并不总是更好,并强调了在不同领域进行严格评估的重要性。提供的 PDF 链接允许更深入地研究具体结果和方法。
引用
“作者发现 GPT-5 的性能相对于 GPT-4 时代的模型略有下降。”
这篇文章报告了一个令人惊讶的发现:GPT-5 在医疗保健评估 (MedHELM) 中表现出相对于 GPT-4 的轻微退步。这表明较新的模型并不总是更好,并强调了在不同领域进行严格评估的重要性。提供的 PDF 链接允许更深入地研究具体结果和方法。
“作者发现 GPT-5 的性能相对于 GPT-4 时代的模型略有下降。”