Research Paper#Large Language Models (LLMs), Reinforcement Learning, Preference Learning🔬 Research分析: 2026年1月3日 08:40
基于偏好反馈的零和博弈中非正则化线性收敛
分析
本文解决了将大型语言模型 (LLM) 与人类偏好对齐的挑战,超越了假设传递性偏好的传统方法的局限性。它引入了一种使用来自人类反馈的纳什学习 (NLHF) 的新方法,并首次为在这种情况下使用乐观乘法权重更新 (OMWU) 算法提供了收敛保证。关键贡献是在没有正则化的情况下实现线性收敛,这避免了偏差并提高了对偶间隙计算的准确性。这尤其重要,因为它不需要 NE 唯一性的假设,并且它识别了一种新颖的边际收敛行为,从而导致更好的实例相关常数依赖性。这项工作的实验验证进一步增强了其在 LLM 应用中的潜力。
要点
引用
“本文为 NLHF 中的乐观乘法权重更新 (OMWU) 提供了第一个收敛保证,表明只要存在具有完全支持的 NE,它就会在预热阶段后实现最后一次迭代线性收敛。”