SWE-RM:面向软件工程代理的无执行反馈
分析
本文探讨了基于执行的反馈(如单元测试)在训练软件工程代理方面的局限性,尤其是在强化学习(RL)中。它强调了对更细粒度反馈的需求,并介绍了SWE-RM,一个无需执行的奖励模型。本文的重要性在于它探索了对稳健奖励模型训练至关重要的因素,例如分类准确性和校准,并展示了在测试时缩放(TTS)和RL任务上的改进性能。这很重要,因为它提供了一种新的方法来训练能够更有效地解决软件工程任务的代理。
关键要点
引用 / 来源
查看原文"SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models."