MITの研究、AIコード反復の画期的な新ベンチマークを公開research#agent📝 Blog|分析: 2026年3月30日 03:17•公開: 2026年3月30日 02:58•1分で読める•钛媒体分析MITの研究者たちは、AIエージェントの長期的なコード記述能力を厳密にテストするために設計された、画期的な新しいベンチマーク、SlopCodeBenchを公開しました。このベンチマークは、現実世界のソフトウェア開発をシミュレートし、複数の反復と進化する要件を通じて、AIにコードの適応と洗練を促します。この研究は、私たちがソフトウェア開発においてAIを評価し、利用する方法を劇的に改善することを約束します。重要ポイント•SlopCodeBenchは、現実世界のコーディングの複雑さを反映し、反復的な開発シナリオでAIエージェントに挑戦します。•このベンチマークには、AIが最初からやり直すのではなく、既存のコードを適応させ、修正することを強いる、一連の進化するタスクが含まれています。•AI評価へのこの新しいアプローチは、動的なソフトウェア開発環境におけるAIの能力をより正確に評価することを約束します。引用・出典原文を見る"SlopCodeBench: AIプログラミングエージェントの欠点を露呈するように設計された「地獄モード」ベンチマーク。"钛钛媒体2026年3月30日 02:58* 著作権法第32条に基づく適法な引用です。古い記事Anthropic Teases 'Claude Mythos': A Leap Forward in Generative AI Performance!新しい記事Claude Code's MEMORY.md: Revolutionizing AI Project Memory関連分析researchAI(人工知能)の新たな章、その興奮を解き明かす2026年3月30日 14:35researchAIの新たなフロンティア:現代のビデオゲームの複雑さを制覇2026年3月30日 14:36researchAIが学術図表を革新!Illustratorなしで素晴らしいビジュアルを作成!2026年3月30日 14:15原文: 钛媒体