静的再重み付けによるソフトFQIの収束改善
Research Paper#Reinforcement Learning, Offline RL, Fitted Q-Iteration🔬 Research|分析: 2026年1月3日 18:24•
公開: 2025年12月30日 00:58
•1分で読める
•ArXiv分析
この論文は、関数近似と分布シフト下でのオフライン強化学習におけるソフトFitted Q-Iteration (FQI) の不安定性に対処しています。ソフトベルマン演算子の幾何学的ミスマッチを主要な問題として特定しています。主な貢献は、現在のポリシーの定常分布を使用して回帰更新を再重み付けする、静的再重み付けソフトFQIの導入です。このアプローチは、関数近似下での局所線形収束保証を提供し、温度アニーリング戦略による大域的収束の可能性を示唆することにより、収束特性を改善することが示されています。
重要ポイント
引用・出典
原文を見る"The paper introduces stationary-reweighted soft FQI, which reweights each regression update using the stationary distribution of the current policy. It proves local linear convergence under function approximation with geometrically damped weight-estimation errors."