无需贝尔曼完备性的FQE改进
Research Paper#Reinforcement Learning, Off-Policy Evaluation, Fitted Q-Evaluation🔬 Research|分析: 2026年1月3日 16:59•
发布: 2025年12月29日 19:04
•1分で読める
•ArXiv分析
本文解决了Fitted Q-Evaluation (FQE) 的一个关键限制,FQE是离策略强化学习中的核心技术。 FQE通常需要贝尔曼完备性,这是一个难以满足的条件。作者确定了范数不匹配是根本原因,并提出了一种使用平稳密度比的简单重加权策略。这使得在没有严格的贝尔曼完备性假设的情况下,也能获得强大的评估保证,从而提高了FQE的鲁棒性和实用性。