OpenAI 开创 AI 代码评估新纪元：SWE-bench 告别！

research #llm 📝 Blog|Analyzed: 2026年2月25日 04:45•

Published: 2026年2月25日 12:33

•

1分で読める

分析

OpenAI 正在通过停用 SWE-bench Verified 基准来革新我们衡量 AI 编码能力的方式。这一大胆举措标志着向更现实、更真实世界的指标转变，这些指标反映了 AI 在软件开发中的实际影响和价值。准备好迎接注重实际应用的新一代代码评估吧！

Reference / Citation

"OpenAI 的核心观点是：SWE Bench Verified 一直是用于衡量该领域代码能力进展的“北极星”级基准之一。但最近我们发现，这个基准上的进展基本停滞了。"

InfoQ中国2026年2月25日 12:33

* Cited for critical analysis under Article 32.

Revolutionizing Restaurants: Su Liang's Vision for Robotic Automation

AI Innovation Sparks Excitement: Market Shifts and New Opportunities Ahead

2026年4月12日 01:45

2026年4月12日 02:04

2026年4月12日 01:18