分析
这篇论文解决了大型语言模型(LLM)强化学习(RL)中的不稳定性问题,该问题是由训练和推理概率分布之间的不匹配引起的,特别是在token概率分布的尾部。作者发现,概率较低的token对这种不匹配有很大贡献,并使梯度估计不稳定。他们提出的解决方案是动态词汇表剪枝,通过排除词汇表的极端尾部来缓解这个问题,从而实现更稳定的训练。
引用
“作者建议将RL目标约束到一个动态剪枝的“安全”词汇表中,该词汇表排除了极端尾部。”
这篇论文解决了大型语言模型(LLM)强化学习(RL)中的不稳定性问题,该问题是由训练和推理概率分布之间的不匹配引起的,特别是在token概率分布的尾部。作者发现,概率较低的token对这种不匹配有很大贡献,并使梯度估计不稳定。他们提出的解决方案是动态词汇表剪枝,通过排除词汇表的极端尾部来缓解这个问题,从而实现更稳定的训练。
“作者建议将RL目标约束到一个动态剪枝的“安全”词汇表中,该词汇表排除了极端尾部。”