Paper#llm🔬 Research分析: 2026年1月3日 19:14

通过动态词汇表剪枝实现稳定的LLM强化学习

发布:2025年12月28日 21:44
1分で読める
ArXiv

分析

这篇论文解决了大型语言模型(LLM)强化学习(RL)中的不稳定性问题,该问题是由训练和推理概率分布之间的不匹配引起的,特别是在token概率分布的尾部。作者发现,概率较低的token对这种不匹配有很大贡献,并使梯度估计不稳定。他们提出的解决方案是动态词汇表剪枝,通过排除词汇表的极端尾部来缓解这个问题,从而实现更稳定的训练。

引用

作者建议将RL目标约束到一个动态剪枝的“安全”词汇表中,该词汇表排除了极端尾部。