用于离线强化学习的贝尔曼校准

发布:2025年12月29日 18:52

•

1分で読める

分析

本文介绍了迭代贝尔曼校准，这是一种新颖的后验方法，用于提高离线强化学习中价值预测的准确性。该方法与模型无关，并且不需要贝尔曼完备性或可实现性等强假设，使其具有广泛的适用性。使用双重鲁棒伪结果来处理离策略数据是一项关键贡献。本文提供了有限样本保证，这对于实际应用至关重要。

引用

“贝尔曼校准要求具有相似预测长期回报的状态表现出与目标策略下的贝尔曼方程一致的单步回报。”

OpenPBR: Novel Features and Implementation Details

Fine-Tuning LLMs with Fine-Grained Human Feedback on Text Spans