MITの研究、AIコード反復の画期的な新ベンチマークを公開

research#agent📝 Blog|分析: 2026年3月30日 03:17
公開: 2026年3月30日 02:58
1分で読める
钛媒体

分析

MITの研究者たちは、AIエージェントの長期的なコード記述能力を厳密にテストするために設計された、画期的な新しいベンチマーク、SlopCodeBenchを公開しました。このベンチマークは、現実世界のソフトウェア開発をシミュレートし、複数の反復と進化する要件を通じて、AIにコードの適応と洗練を促します。この研究は、私たちがソフトウェア開発においてAIを評価し、利用する方法を劇的に改善することを約束します。
引用・出典
原文を見る
"SlopCodeBench: AIプログラミングエージェントの欠点を露呈するように設計された「地獄モード」ベンチマーク。"
钛媒体2026年3月30日 02:58
* 著作権法第32条に基づく適法な引用です。