通过动态词汇表剪枝实现稳定的LLM强化学习Paper#llm🔬 Research|分析: 2026年1月3日 19:14•发布: 2025年12月28日 21:44•1分で読める•ArXiv分析这篇论文解决了大型语言模型(LLM)强化学习(RL)中的不稳定性问题,该问题是由训练和推理概率分布之间的不匹配引起的,特别是在token概率分布的尾部。作者发现,概率较低的token对这种不匹配有很大贡献,并使梯度估计不稳定。他们提出的解决方案是动态词汇表剪枝,通过排除词汇表的极端尾部来缓解这个问题,从而实现更稳定的训练。要点•解决了LLM RL中的训练-推理不匹配问题。•将token概率分布的尾部确定为不稳定的关键来源。•提出动态词汇表剪枝作为稳定训练的解决方案。•提供了关于剪枝引入的优化偏差的理论界限。引用 / 来源查看原文"The authors propose constraining the RL objective to a dynamically-pruned ``safe'' vocabulary that excludes the extreme tail."AArXiv2025年12月28日 21:44* 根据版权法第32条进行合法引用。较旧Hypergraph Semantics for Doxastic Logics较新Phase transition revealed by eigen microstate entropy相关分析Paper基于选择策略的协调人形机器人操作2026年1月3日 06:10Paper从未对齐图像即时进行3D场景编辑2026年1月3日 06:10Paper用于未来预测的LLM预测2026年1月3日 06:10来源: ArXiv