通过动态词汇表剪枝实现稳定的LLM强化学习

Paper#llm🔬 Research|分析: 2026年1月3日 19:14
发布: 2025年12月28日 21:44
1分で読める
ArXiv

分析

这篇论文解决了大型语言模型(LLM)强化学习(RL)中的不稳定性问题,该问题是由训练和推理概率分布之间的不匹配引起的,特别是在token概率分布的尾部。作者发现,概率较低的token对这种不匹配有很大贡献,并使梯度估计不稳定。他们提出的解决方案是动态词汇表剪枝,通过排除词汇表的极端尾部来缓解这个问题,从而实现更稳定的训练。
引用 / 来源
查看原文
"The authors propose constraining the RL objective to a dynamically-pruned ``safe'' vocabulary that excludes the extreme tail."
A
ArXiv2025年12月28日 21:44
* 根据版权法第32条进行合法引用。