FoldAct: 長期的なRLのための安定したコンテキスト折り畳み
Research Paper#Reinforcement Learning, Large Language Models, Context Folding🔬 Research|分析: 2026年1月3日 19:41•
公開: 2025年12月28日 00:24
•1分で読める
•ArXiv分析
この論文は、大規模言語モデルにおける長期的な強化学習(RL)のスケーラビリティに関する課題に取り組み、特にコンテキスト折り畳み手法に焦点を当てています。要約アクションを標準アクションとして扱うことから生じる問題を特定し、対処しています。これは、非定常的な観測分布とトレーニングの不安定性につながります。提案されたFoldActフレームワークは、これらの問題を軽減するための革新を提供し、トレーニング効率と安定性を向上させます。