嗜好フィードバックからのゼロサムゲームにおける非正則化線形収束

Research Paper #Large Language Models (LLMs), Reinforcement Learning, Preference Learning 🔬 Research|分析: 2026年1月3日 08:40•

公開: 2025年12月31日 12:08

•

1分で読める

•ArXiv

分析

この論文は、大規模言語モデル（LLM）を人間の嗜好に合わせるという課題に取り組み、推移性を仮定する従来のメソッドの限界を超えています。Nash learning from human feedback (NLHF) を使用する新しいアプローチを導入し、このコンテキストで Optimistic Multiplicative Weights Update (OMWU) アルゴリズムの最初の収束保証を提供します。主な貢献は、正則化なしで線形収束を達成することであり、バイアスを回避し、双対ギャップ計算の精度を向上させます。これは、NEの一意性の仮定を必要とせず、新しい限界収束挙動を特定し、インスタンス依存定数の依存性を向上させるため、特に重要です。実験による検証は、LLMアプリケーションの可能性をさらに強化します。

重要ポイント

引用・出典

原文を見る

"The paper provides the first convergence guarantee for Optimistic Multiplicative Weights Update (OMWU) in NLHF, showing that it achieves last-iterate linear convergence after a burn-in phase whenever an NE with full support exists."

ArXiv2025年12月31日 12:08

* 著作権法第32条に基づく適法な引用です。

古い記事

Show HN: Pornpen.ai – AI-Generated Porn

新しい記事

Ask HN: Best way to get started with AI?

嗜好フィードバックからのゼロサムゲームにおける非正則化線形収束

分析

重要ポイント

関連分析

SpaceTimePilot：空間と時間の制御による生成ビデオレンダリング

量子カオスハミルトニアン進化におけるランダム性生成

GaMO：幾何学認識拡散を用いた疎視点3D再構成

📬 AIニュースを受信

カテゴリで探す

トレンドトピック

📬 AIニュースを受信

カテゴリで探す

トレンドトピック