LLMのRLトレーニングにおけるKL正則化:詳細分析

公開:2025年12月26日 04:20
1分で読める
ArXiv

分析

本論文は、大規模言語モデル(LLM)の強化学習(RL)トレーニングにおける正則化に使用される、さまざまなKullback-Leibler(KL)ダイバージェンス推定器の影響を調査しています。バイアスのかかっていない勾配推定器を選択することの重要性を強調し、トレーニングの不安定性を回避し、インドメインおよびアウトオブドメインタスクの両方でパフォーマンスを向上させることを示しています。実践的な実装の詳細と、複数のLLMを用いた実証的検証に焦点を当てているため、実務者にとって価値があります。

参照

バイアスのかかっていない勾配をもたらす推定器構成を使用すると、インドメインおよびアウトオブドメインタスクの両方でより優れたパフォーマンスが得られます。