嗜好フィードバックからのゼロサムゲームにおける非正則化線形収束

Research Paper#Large Language Models (LLMs), Reinforcement Learning, Preference Learning🔬 Research|分析: 2026年1月3日 08:40
公開: 2025年12月31日 12:08
1分で読める
ArXiv

分析

この論文は、大規模言語モデル(LLM)を人間の嗜好に合わせるという課題に取り組み、推移性を仮定する従来のメソッドの限界を超えています。Nash learning from human feedback (NLHF) を使用する新しいアプローチを導入し、このコンテキストで Optimistic Multiplicative Weights Update (OMWU) アルゴリズムの最初の収束保証を提供します。主な貢献は、正則化なしで線形収束を達成することであり、バイアスを回避し、双対ギャップ計算の精度を向上させます。これは、NEの一意性の仮定を必要とせず、新しい限界収束挙動を特定し、インスタンス依存定数の依存性を向上させるため、特に重要です。実験による検証は、LLMアプリケーションの可能性をさらに強化します。
引用・出典
原文を見る
"The paper provides the first convergence guarantee for Optimistic Multiplicative Weights Update (OMWU) in NLHF, showing that it achieves last-iterate linear convergence after a burn-in phase whenever an NE with full support exists."
A
ArXiv2025年12月31日 12:08
* 著作権法第32条に基づく適法な引用です。