分析
本文研究了如何通过重塑预训练的令牌输出分布来改善大型语言模型(LLM)中强化学习(RL)的探索空间。它挑战了高熵(多样性)总是有利于探索的常见观点,认为以精度为导向的先验可以带来更好的RL性能。核心贡献是一种奖励塑造策略,该策略平衡了多样性和精度,使用正奖励缩放因子和排名感知机制。
引用
“与直觉相反,即更高的分布熵有助于有效探索,我们发现施加以精度为导向的先验会为RL产生更好的探索空间。”
本文研究了如何通过重塑预训练的令牌输出分布来改善大型语言模型(LLM)中强化学习(RL)的探索空间。它挑战了高熵(多样性)总是有利于探索的常见观点,认为以精度为导向的先验可以带来更好的RL性能。核心贡献是一种奖励塑造策略,该策略平衡了多样性和精度,使用正奖励缩放因子和排名感知机制。
“与直觉相反,即更高的分布熵有助于有效探索,我们发现施加以精度为导向的先验会为RL产生更好的探索空间。”