データ破損に対するロバスト性を持つスパースオフライン強化学習

公開:2025年12月31日 10:28
1分で読める
ArXiv

分析

この論文は、データが破損する可能性のある高次元でスパースなマルコフ決定過程(MDP)におけるロバストなオフライン強化学習の課題に取り組んでいます。LSVIのような既存の手法の、スパース性を組み込む際の限界を強調し、スパースなロバスト推定器を備えたアクター・クリティック法を提案しています。主な貢献は、この困難な状況において最初の非自明な保証を提供し、データの破損と特定のカバレッジの仮定の下でも、ほぼ最適なポリシーを学習することが可能であることを示している点です。

参照

この論文は、単一ポリシー集中性カバレッジと破損を伴う高次元スパースMDPにおいて、最初の非自明な保証を提供し、従来のロバストオフラインRL技術が失敗する可能性のある状況でも、ほぼ最適なポリシーの学習が可能であることを示しています。