SWE-RM：面向软件工程代理的无执行反馈

Paper #llm 🔬 Research|分析: 2026年1月3日 16:35•

发布: 2025年12月26日 08:26

•

1分で読める

分析

本文探讨了基于执行的反馈（如单元测试）在训练软件工程代理方面的局限性，尤其是在强化学习（RL）中。它强调了对更细粒度反馈的需求，并介绍了SWE-RM，一个无需执行的奖励模型。本文的重要性在于它探索了对稳健奖励模型训练至关重要的因素，例如分类准确性和校准，并展示了在测试时缩放（TTS）和RL任务上的改进性能。这很重要，因为它提供了一种新的方法来训练能够更有效地解决软件工程任务的代理。

关键要点

引用 / 来源

查看原文

"SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models."

ArXiv2025年12月26日 08:26

* 根据版权法第32条进行合法引用。

较旧

Fast Stable Diffusion on CPU 1.0.0 beta for Windows and Linux

较新

Show HN: Each country as a Pokemon, using Stable Diffusion

SWE-RM：面向软件工程代理的无执行反馈

分析

关键要点

相关分析

从未对齐图像即时进行3D场景编辑

基于选择策略的协调人形机器人操作

用于未来预测的LLM预测

📬 Get AI News Delivered

按类别浏览

热门话题

📬 Get AI News Delivered

按类别浏览

热门话题