時間差学習を用いたポリシーミラー降下法のサンプル複雑性

公開:2025年12月30日 07:57
1分で読める
ArXiv

分析

本論文は、強化学習における時間差学習(TD学習)を用いたポリシーミラー降下法(PMD)のサンプル複雑性を、特にマルコフサンプリングモデルの下で調査しています。既存の分析の限界を克服するため、行動価値の明示的な近似を必要とせずに、TD学習を直接考慮しています。論文では、Expected TD-PMDとApproximate TD-PMDという2つのアルゴリズムを提案し、イプシロン最適性を達成するためのサンプル複雑性の保証を提供しています。この結果は、より現実的な設定(マルコフサンプリング)におけるPMD法の理論的理解に貢献し、これらのアルゴリズムのサンプル効率に関する洞察を提供する点で重要です。

参照

本論文は、平均時間イプシロン最適性と最終反復イプシロン最適性をそれぞれ達成するために、$ ilde{O}(\varepsilon^{-2})$と$O(\varepsilon^{-2})$のサンプル複雑性を確立しています。