SWE-EVO:長期間のソフトウェア進化シナリオにおけるコーディングエージェントのベンチマーク

Research#llm🔬 Research|分析: 2026年1月4日 10:04
公開: 2025年12月20日 19:08
1分で読める
ArXiv

分析

この記事は、複雑で長期的なソフトウェア進化タスクにおけるコーディングエージェントを評価するためのベンチマーク、SWE-EVOを紹介しています。 長期的なシナリオに焦点を当てていることから、より単純なコーディングタスクを超え、持続的な開発とメンテナンスを処理するエージェントの能力を評価しようとしていることが示唆されます。「ベンチマーク」という用語の使用は、さまざまなエージェントの比較分析を意味しており、この分野を進歩させる上で価値があります。 出典であるArXivは、これが研究論文である可能性が高いことを示しています。
引用・出典
原文を見る
"SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios"
A
ArXiv2025年12月20日 19:08
* 著作権法第32条に基づく適法な引用です。