FoldAct: 用于长时程 RL 的稳定上下文折叠

Research Paper#Reinforcement Learning, Large Language Models, Context Folding🔬 Research|分析: 2026年1月3日 19:41
发布: 2025年12月28日 00:24
1分で読める
ArXiv

分析

本文解决了大型语言模型长时程强化学习(RL)的可扩展性挑战,特别关注上下文折叠方法。它识别并解决了将摘要动作视为标准动作所产生的问题,这会导致非平稳的观测分布和训练不稳定。提出的 FoldAct 框架提供了创新,以缓解这些问题,从而提高训练效率和稳定性。
引用 / 来源
查看原文
"FoldAct explicitly addresses challenges through three key innovations: separated loss computation, full context consistency loss, and selective segment training."
A
ArXiv2025年12月28日 00:24
* 根据版权法第32条进行合法引用。