SWE-EVO:在长时程软件演进场景中对编码代理进行基准测试

Research#llm🔬 Research|分析: 2026年1月4日 10:04
发布: 2025年12月20日 19:08
1分で読める
ArXiv

分析

本文介绍了SWE-EVO,一个用于评估复杂、长时程软件演进任务中编码代理的基准。 关注长时程场景表明,该研究试图超越更简单的编码任务,并评估代理处理持续开发和维护的能力。 使用“基准测试”一词意味着对不同代理进行比较分析,这对于推动该领域的发展很有价值。 来源ArXiv表明这很可能是一篇研究论文。
引用 / 来源
查看原文
"SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios"
A
ArXiv2025年12月20日 19:08
* 根据版权法第32条进行合法引用。