FoldAct: 用于长时程 RL 的稳定上下文折叠
Research Paper#Reinforcement Learning, Large Language Models, Context Folding🔬 Research|分析: 2026年1月3日 19:41•
发布: 2025年12月28日 00:24
•1分で読める
•ArXiv分析
本文解决了大型语言模型长时程强化学习(RL)的可扩展性挑战,特别关注上下文折叠方法。它识别并解决了将摘要动作视为标准动作所产生的问题,这会导致非平稳的观测分布和训练不稳定。提出的 FoldAct 框架提供了创新,以缓解这些问题,从而提高训练效率和稳定性。