Research#llm🔬 Research分析: 2025年12月25日 02:13

Memory-T1:多会话代理中用于时间推理的强化学习

发布:2025年12月24日 05:00
1分で読める
ArXiv NLP

分析

这篇ArXiv NLP论文介绍了Memory-T1,这是一个新颖的强化学习框架,旨在增强在多个会话中运行的对话代理中的时间推理能力。解决的核心问题是当前长上下文模型在冗长且嘈杂的对话历史中准确识别时间相关信息时面临的困难。Memory-T1通过采用由粗到精的策略来解决这个问题,首先使用时间和相关性过滤器修剪对话历史,然后使用RL代理选择精确的证据会话。多级奖励函数,包括答案准确性、证据基础和时间一致性,是一项关键创新。在Time-Dialog基准测试中报告的最先进的性能,超过了14B基线,表明了该方法的有效性。消融研究进一步验证了时间一致性和证据基础奖励的重要性。

引用

在长时间的多会话对话中进行时间推理是对话代理的关键能力。