静止重加权改进软拟合Q迭代收敛性
Research Paper#Reinforcement Learning, Offline RL, Fitted Q-Iteration🔬 Research|分析: 2026年1月3日 18:24•
发布: 2025年12月30日 00:58
•1分で読める
•ArXiv分析
本文解决了离线强化学习中软拟合Q迭代(FQI)的不稳定性问题,特别是在使用函数逼近和面临分布偏移时。它将软贝尔曼算子的几何失配确定为关键问题。核心贡献是引入了静止重加权软FQI,该方法使用当前策略的静止分布来重新加权回归更新。这种方法被证明可以改善收敛特性,在函数逼近下提供局部线性收敛保证,并暗示通过温度退火策略实现全局收敛的可能性。
要点
引用 / 来源
查看原文"The paper introduces stationary-reweighted soft FQI, which reweights each regression update using the stationary distribution of the current policy. It proves local linear convergence under function approximation with geometrically damped weight-estimation errors."