基于偏好反馈的零和博弈中非正则化线性收敛

Research Paper #Large Language Models (LLMs), Reinforcement Learning, Preference Learning 🔬 Research|分析: 2026年1月3日 08:40•

发布: 2025年12月31日 12:08

•

1分で読める

•ArXiv

分析

本文解决了将大型语言模型 (LLM) 与人类偏好对齐的挑战，超越了假设传递性偏好的传统方法的局限性。它引入了一种使用来自人类反馈的纳什学习 (NLHF) 的新方法，并首次为在这种情况下使用乐观乘法权重更新 (OMWU) 算法提供了收敛保证。关键贡献是在没有正则化的情况下实现线性收敛，这避免了偏差并提高了对偶间隙计算的准确性。这尤其重要，因为它不需要 NE 唯一性的假设，并且它识别了一种新颖的边际收敛行为，从而导致更好的实例相关常数依赖性。这项工作的实验验证进一步增强了其在 LLM 应用中的潜力。

要点

引用 / 来源

查看原文

"The paper provides the first convergence guarantee for Optimistic Multiplicative Weights Update (OMWU) in NLHF, showing that it achieves last-iterate linear convergence after a burn-in phase whenever an NE with full support exists."

ArXiv2025年12月31日 12:08

* 根据版权法第32条进行合法引用。

较旧

Show HN: Pornpen.ai – AI-Generated Porn

较新

Ask HN: Best way to get started with AI?

基于偏好反馈的零和博弈中非正则化线性收敛

分析

要点

相关分析

SpaceTimePilot：时空控制的生成视频渲染

量子混沌哈密顿量演化下的随机性生成

GaMO：几何感知扩散用于稀疏视角3D重建

📬 获取AI新闻

按类别浏览

热门话题

📬 获取AI新闻

按类别浏览

热门话题