在LLM下一令牌预测中平衡多样性和精度

Paper#LLM🔬 Research|分析: 2026年1月3日 19:24
发布: 2025年12月28日 14:53
1分で読める
ArXiv

分析

本文研究了如何通过重塑预训练的令牌输出分布来改善大型语言模型(LLM)中强化学习(RL)的探索空间。它挑战了高熵(多样性)总是有利于探索的常见观点,认为以精度为导向的先验可以带来更好的RL性能。核心贡献是一种奖励塑造策略,该策略平衡了多样性和精度,使用正奖励缩放因子和排名感知机制。
引用 / 来源
查看原文
"Contrary to the intuition that higher distribution entropy facilitates effective exploration, we find that imposing a precision-oriented prior yields a superior exploration space for RL."
A
ArXiv2025年12月28日 14:53
* 根据版权法第32条进行合法引用。