分析
OpenAI 正在通过停用 SWE-bench Verified 基准来革新我们衡量 AI 编码能力的方式。 这一大胆举措标志着向更现实、更真实世界的指标转变,这些指标反映了 AI 在软件开发中的实际影响和价值。 准备好迎接注重实际应用的新一代代码评估吧!
关键要点
Reference / Citation
View Original"OpenAI 的核心观点是:SWE Bench Verified 一直是用于衡量该领域代码能力进展的“北极星”级基准之一。 但最近我们发现,这个基准上的进展基本停滞了。"