Paper#llm🔬 Research分析: 2026年1月3日 16:35

SWE-RM:面向软件工程代理的无执行反馈

发布:2025年12月26日 08:26
1分で読める
ArXiv

分析

本文探讨了基于执行的反馈(如单元测试)在训练软件工程代理方面的局限性,尤其是在强化学习(RL)中。它强调了对更细粒度反馈的需求,并介绍了SWE-RM,一个无需执行的奖励模型。本文的重要性在于它探索了对稳健奖励模型训练至关重要的因素,例如分类准确性和校准,并展示了在测试时缩放(TTS)和RL任务上的改进性能。这很重要,因为它提供了一种新的方法来训练能够更有效地解决软件工程任务的代理。

引用

SWE-RM在TTS和RL性能上都显著提高了SWE代理。例如,它将Qwen3-Coder-Flash在SWE-Bench Verified上的准确率从51.6%提高到62.0%,将Qwen3-Coder-Max的准确率从67.0%提高到74.6%,使用TTS,在开源模型中实现了新的最先进的性能。