Research Paper#Reinforcement Learning, Policy Optimization, Sample Complexity🔬 Research分析: 2026年1月3日 16:51
基于时间差学习的策略镜像下降法的样本复杂度
分析
本文研究了在马尔可夫采样模型下,使用时间差分 (TD) 学习的策略镜像下降 (PMD) 在强化学习中的样本复杂度。它解决了现有分析的局限性,通过直接考虑 TD 学习,而无需显式近似动作值。本文介绍了两种算法,Expected TD-PMD 和 Approximate TD-PMD,并提供了实现 epsilon-最优性的样本复杂度保证。这些结果意义重大,因为它们有助于在更现实的设置(马尔可夫采样)下理解 PMD 方法的理论,并提供了关于这些算法的样本效率的见解。
要点
引用
“本文建立了实现平均时间 epsilon-最优性和最后一次迭代 epsilon-最优性的样本复杂度,分别为 $ ilde{O}(\varepsilon^{-2})$ 和 $O(\varepsilon^{-2})$。”