基于偏好反馈的零和博弈中非正则化线性收敛

Research Paper#Large Language Models (LLMs), Reinforcement Learning, Preference Learning🔬 Research|分析: 2026年1月3日 08:40
发布: 2025年12月31日 12:08
1分で読める
ArXiv

分析

本文解决了将大型语言模型 (LLM) 与人类偏好对齐的挑战,超越了假设传递性偏好的传统方法的局限性。它引入了一种使用来自人类反馈的纳什学习 (NLHF) 的新方法,并首次为在这种情况下使用乐观乘法权重更新 (OMWU) 算法提供了收敛保证。关键贡献是在没有正则化的情况下实现线性收敛,这避免了偏差并提高了对偶间隙计算的准确性。这尤其重要,因为它不需要 NE 唯一性的假设,并且它识别了一种新颖的边际收敛行为,从而导致更好的实例相关常数依赖性。这项工作的实验验证进一步增强了其在 LLM 应用中的潜力。
引用 / 来源
查看原文
"The paper provides the first convergence guarantee for Optimistic Multiplicative Weights Update (OMWU) in NLHF, showing that it achieves last-iterate linear convergence after a burn-in phase whenever an NE with full support exists."
A
ArXiv2025年12月31日 12:08
* 根据版权法第32条进行合法引用。