用于长视野LLM强化学习的信任区域掩蔽

发布:2025年12月28日 20:41
1分で読める
ArXiv

分析

本文解决了长视野LLM强化学习中策略外不匹配的问题,这是一个由于实现差异等因素造成的关键问题。它推导了更严格的信任区域界限,并引入了信任区域掩蔽(TRM)以提供单调改进保证,这对于长视野任务来说是一项重大进步。

引用

本文提出了信任区域掩蔽(TRM),如果任何标记违反信任区域,则从梯度计算中排除整个序列,为长视野LLM-RL提供了第一个非平凡的单调改进保证。