SWE-RM:ソフトウェアエンジニアリングエージェントのための実行不要なフィードバック

Paper#llm🔬 Research|分析: 2026年1月3日 16:35
公開: 2025年12月26日 08:26
1分で読める
ArXiv

分析

この論文は、ソフトウェアエンジニアリングエージェントのトレーニングにおける実行ベースのフィードバック(ユニットテストなど)の限界に対処しています。特に強化学習(RL)において、よりきめ細かいフィードバックの必要性を強調し、実行不要な報酬モデルであるSWE-RMを紹介しています。この論文の重要性は、分類精度やキャリブレーションなど、堅牢な報酬モデルのトレーニングに不可欠な要因を探求し、テスト時間スケーリング(TTS)とRLタスクの両方で改善されたパフォーマンスを実証している点にあります。これは、ソフトウェアエンジニアリングタスクをより効果的に解決できるエージェントをトレーニングするための新しいアプローチを提供するため、重要です。
引用・出典
原文を見る
"SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models."
A
ArXiv2025年12月26日 08:26
* 著作権法第32条に基づく適法な引用です。