QianfanHuijin:金融LLM的多阶段训练

发布:2025年12月30日 16:10
1分で読める
ArXiv

分析

本文介绍了QianfanHuijin,一个金融领域LLM,以及一种新颖的多阶段训练范式。它解决了对既具备领域知识又具备高级推理/代理能力的LLM的需求,超越了简单的知识增强。包括持续预训练、金融SFT、推理RL和代理RL在内的多阶段方法是一个重要的贡献。本文侧重于真实世界的业务场景,并通过基准测试和消融研究进行验证,表明这是一种实用且有影响力的工业LLM开发方法。

引用

论文强调了有针对性的推理RL和代理RL阶段在其各自的能力上产生了显著的收益。