オフライン強化学習におけるベルマンキャリブレーションの改善

公開:2025年12月29日 18:52
1分で読める
ArXiv

分析

この論文は、オフライン強化学習における価値予測の精度を向上させるための新しい事後的な方法である反復ベルマンキャリブレーションを紹介しています。この方法はモデルに依存せず、ベルマンの完全性や実現可能性などの強い仮定を必要としないため、幅広い適用が可能です。二重ロバスト疑似アウトカムを使用してオフポリシーデータを処理することは、重要な貢献です。論文は有限サンプル保証を提供しており、これは実用的なアプリケーションにとって非常に重要です。

参照

ベルマンキャリブレーションは、類似した予測長期リターンを持つ状態が、ターゲットポリシーの下でベルマン方程式と一致する1ステップリターンを示すことを要求します。