OpenAI 开创 AI 代码评估新纪元:SWE-bench 告别!research#llm📝 Blog|分析: 2026年2月25日 04:45•发布: 2026年2月25日 12:33•1分で読める•InfoQ中国分析OpenAI 正在通过停用 SWE-bench Verified 基准来革新我们衡量 AI 编码能力的方式。 这一大胆举措标志着向更现实、更真实世界的指标转变,这些指标反映了 AI 在软件开发中的实际影响和价值。 准备好迎接注重实际应用的新一代代码评估吧!要点•SWE-bench Verified 正在退役,因为它已经饱和且受到污染,不再准确反映 AI 代码能力。•重点正在转向 SWE-bench Pro,它具有更复杂和更具挑战性的编码任务。•最终目标是通过跟踪 AI 的使用情况及其对人类工作的贡献来衡量 AI 的现实世界影响。引用 / 来源查看原文"OpenAI 的核心观点是:SWE Bench Verified 一直是用于衡量该领域代码能力进展的“北极星”级基准之一。 但最近我们发现,这个基准上的进展基本停滞了。"IInfoQ中国2026年2月25日 12:33* 根据版权法第32条进行合法引用。较旧Revolutionizing Restaurants: Su Liang's Vision for Robotic Automation较新AI Innovation Sparks Excitement: Market Shifts and New Opportunities Ahead相关分析researchAI创新:模型蒸馏在生成式AI领域引发激动2026年2月25日 05:30researchGrady Booch 宣告新黄金时代:AI 重塑软件工程2026年2月25日 05:15researchAI编译器突破:LLVM之父盛赞Anthropic的C编译器2026年2月25日 03:45来源: InfoQ中国