OpenAIがAIコード評価の新時代を切り開く:SWE-benchよ、さようなら!research#llm📝 Blog|分析: 2026年2月25日 04:45•公開: 2026年2月25日 12:33•1分で読める•InfoQ中国分析OpenAIは、SWE-bench Verifiedというベンチマークを廃止することで、AIのコーディング能力を測る方法に革命を起こしています。この大胆な動きは、AIがソフトウェア開発において実際に与える影響と価値を反映した、より現実的で現実世界の指標への転換を示唆しています。実用的なアプリケーションを重視する、次世代のコード評価に注目しましょう!重要ポイント•SWE-bench Verifiedは、飽和し、汚染され、もはやAIコード能力を正確に反映していないため、廃止されます。•焦点は、より複雑で挑戦的なコーディングタスクを特徴とするSWE-bench Proに移行しています。•最終的な目標は、AIの使用状況と人間の仕事への貢献を追跡することにより、AIの現実世界での影響を測定することです。引用・出典原文を見る"OpenAIの核心的な見解は、SWE Bench Verifiedは、この分野におけるコード能力の進歩を測るために使用されてきた「北極星」的なベンチマークの一つであるということです。しかし最近、このベンチマークでの進歩が基本的に停滞していることがわかりました。"IInfoQ中国2026年2月25日 12:33* 著作権法第32条に基づく適法な引用です。古い記事Revolutionizing Restaurants: Su Liang's Vision for Robotic Automation新しい記事AI Innovation Sparks Excitement: Market Shifts and New Opportunities Ahead関連分析researchAIイノベーション:モデル蒸留が生成AIに興奮を呼ぶ2026年2月25日 05:30researchGrady Booch氏、新たな黄金時代を宣言:AIがソフトウェアエンジニアリングを再構築2026年2月25日 05:15researchAIコンパイラの新時代:LLVMの父、AnthropicのCコンパイラを絶賛2026年2月25日 03:45原文: InfoQ中国