OpenAIがAIコード評価の新時代を切り開く:SWE-benchよ、さようなら!

research#llm📝 Blog|分析: 2026年2月25日 04:45
公開: 2026年2月25日 12:33
1分で読める
InfoQ中国

分析

OpenAIは、SWE-bench Verifiedというベンチマークを廃止することで、AIのコーディング能力を測る方法に革命を起こしています。この大胆な動きは、AIがソフトウェア開発において実際に与える影響と価値を反映した、より現実的で現実世界の指標への転換を示唆しています。実用的なアプリケーションを重視する、次世代のコード評価に注目しましょう!
引用・出典
原文を見る
"OpenAIの核心的な見解は、SWE Bench Verifiedは、この分野におけるコード能力の進歩を測るために使用されてきた「北極星」的なベンチマークの一つであるということです。しかし最近、このベンチマークでの進歩が基本的に停滞していることがわかりました。"
I
InfoQ中国2026年2月25日 12:33
* 著作権法第32条に基づく適法な引用です。