Research#llm🔬 Research分析: 2026年1月4日 10:04

SWE-EVO:長期間のソフトウェア進化シナリオにおけるコーディングエージェントのベンチマーク

公開:2025年12月20日 19:08
1分で読める
ArXiv

分析

この記事は、複雑で長期的なソフトウェア進化タスクにおけるコーディングエージェントを評価するためのベンチマーク、SWE-EVOを紹介しています。 長期的なシナリオに焦点を当てていることから、より単純なコーディングタスクを超え、持続的な開発とメンテナンスを処理するエージェントの能力を評価しようとしていることが示唆されます。「ベンチマーク」という用語の使用は、さまざまなエージェントの比較分析を意味しており、この分野を進歩させる上で価値があります。 出典であるArXivは、これが研究論文である可能性が高いことを示しています。

参照