SWE-EVO：在长时程软件演进场景中对编码代理进行基准测试

Research #llm 🔬 Research|分析: 2026年1月4日 10:04•

发布: 2025年12月20日 19:08

•

1分で読める

分析

本文介绍了SWE-EVO，一个用于评估复杂、长时程软件演进任务中编码代理的基准。关注长时程场景表明，该研究试图超越更简单的编码任务，并评估代理处理持续开发和维护的能力。使用“基准测试”一词意味着对不同代理进行比较分析，这对于推动该领域的发展很有价值。来源ArXiv表明这很可能是一篇研究论文。

引用 / 来源

"SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios"

ArXiv2025年12月20日 19:08

* 根据版权法第32条进行合法引用。

Mission Impossible: Managing AI Agents in the Real World

Generation of Programmatic Rules for Document Forgery Detection Using Large Language Models