LLMのRLトレーニングにおけるKL正則化:詳細分析

Research Paper#Reinforcement Learning, Large Language Models, KL Divergence, Regularization🔬 Research|分析: 2026年1月3日 23:59
公開: 2025年12月26日 04:20
1分で読める
ArXiv

分析

本論文は、大規模言語モデル(LLM)の強化学習(RL)トレーニングにおける正則化に使用される、さまざまなKullback-Leibler(KL)ダイバージェンス推定器の影響を調査しています。バイアスのかかっていない勾配推定器を選択することの重要性を強調し、トレーニングの不安定性を回避し、インドメインおよびアウトオブドメインタスクの両方でパフォーマンスを向上させることを示しています。実践的な実装の詳細と、複数のLLMを用いた実証的検証に焦点を当てているため、実務者にとって価値があります。
引用・出典
原文を見る
"Using estimator configurations resulting in unbiased gradients leads to better performance on in-domain as well as out-of-domain tasks."
A
ArXiv2025年12月26日 04:20
* 著作権法第32条に基づく適法な引用です。