SWE-RM：ソフトウェアエンジニアリングエージェントのための実行不要なフィードバック

Paper #llm 🔬 Research|分析: 2026年1月3日 16:35•

公開: 2025年12月26日 08:26

•

1分で読める

分析

この論文は、ソフトウェアエンジニアリングエージェントのトレーニングにおける実行ベースのフィードバック（ユニットテストなど）の限界に対処しています。特に強化学習（RL）において、よりきめ細かいフィードバックの必要性を強調し、実行不要な報酬モデルであるSWE-RMを紹介しています。この論文の重要性は、分類精度やキャリブレーションなど、堅牢な報酬モデルのトレーニングに不可欠な要因を探求し、テスト時間スケーリング（TTS）とRLタスクの両方で改善されたパフォーマンスを実証している点にあります。これは、ソフトウェアエンジニアリングタスクをより効果的に解決できるエージェントをトレーニングするための新しいアプローチを提供するため、重要です。

重要ポイント

引用・出典

原文を見る

"SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models."

ArXiv2025年12月26日 08:26

* 著作権法第32条に基づく適法な引用です。

古い記事

Fast Stable Diffusion on CPU 1.0.0 beta for Windows and Linux

新しい記事

Show HN: Each country as a Pokemon, using Stable Diffusion

SWE-RM：ソフトウェアエンジニアリングエージェントのための実行不要なフィードバック

分析

重要ポイント

関連分析

未ポーズ画像からの即時3Dシーン編集

選択ポリシーを用いた協調型人型ロボット操作

将来予測のためのLLMフォアキャスティング

📬 Get AI News Delivered

カテゴリで探��

トレンドトピック

📬 Get AI News Delivered

カテゴリで探��

トレンドトピック