長距離LLM強化学習のためのトラスト領域マスキング

公開:2025年12月28日 20:41
1分で読める
ArXiv

分析

この論文は、実装の相違などにより生じる、長距離LLM強化学習におけるオフポリシーミスマッチという課題に取り組んでいます。より厳密なトラスト領域境界を導出し、単調な改善を保証するTrust Region Masking (TRM)を導入しており、長距離タスクにとって重要な進歩です。

参照

この論文は、トークンがトラスト領域に違反した場合、勾配計算からシーケンス全体を除外するTrust Region Masking (TRM)を提案しており、長距離LLM-RLに対して最初の非自明な単調改善保証を提供しています。