SWE-RM:ソフトウェアエンジニアリングエージェントのための実行不要なフィードバック
分析
この論文は、ソフトウェアエンジニアリングエージェントのトレーニングにおける実行ベースのフィードバック(ユニットテストなど)の限界に対処しています。特に強化学習(RL)において、よりきめ細かいフィードバックの必要性を強調し、実行不要な報酬モデルであるSWE-RMを紹介しています。この論文の重要性は、分類精度やキャリブレーションなど、堅牢な報酬モデルのトレーニングに不可欠な要因を探求し、テスト時間スケーリング(TTS)とRLタスクの両方で改善されたパフォーマンスを実証している点にあります。これは、ソフトウェアエンジニアリングタスクをより効果的に解決できるエージェントをトレーニングするための新しいアプローチを提供するため、重要です。
重要ポイント
参照
“SWE-RMは、TTSとRLの両方のパフォーマンスにおいて、SWEエージェントを大幅に改善します。たとえば、Qwen3-Coder-Flashの精度を51.6%から62.0%に、Qwen3-Coder-Maxの精度を67.0%から74.6%にSWE-Bench VerifiedでTTSを使用して向上させ、オープンソースモデルの中で新しい最先端のパフォーマンスを達成しました。”