LLMの次トークン予測における多様性と精度のバランス

Paper#LLM🔬 Research|分析: 2026年1月3日 19:24
公開: 2025年12月28日 14:53
1分で読める
ArXiv

分析

本論文は、事前学習済みのトークン出力分布を再構築することにより、大規模言語モデル(LLM)における強化学習(RL)のための探索空間をどのように改善するかを調査しています。高いエントロピー(多様性)が常に探索に有益であるという一般的な考えに異議を唱え、代わりに精度志向の事前分布がより良いRLパフォーマンスにつながる可能性があると主張しています。主な貢献は、正の報酬スケーリングファクターとランク認識メカニズムを使用して、多様性と精度をバランスさせる報酬形状戦略です。
引用・出典
原文を見る
"Contrary to the intuition that higher distribution entropy facilitates effective exploration, we find that imposing a precision-oriented prior yields a superior exploration space for RL."
A
ArXiv2025年12月28日 14:53
* 著作権法第32条に基づく適法な引用です。