RLVR 的 PEFT 方法评估

发布:2025年12月29日 03:13
1分で読める
ArXiv

分析

本文对基于可验证奖励的强化学习 (RLVR) 框架内的参数高效微调 (PEFT) 方法进行了全面评估。它解决了 RLVR 的最佳 PEFT 架构缺乏明确性的问题,这是提高语言模型推理能力的关键领域。这项研究的系统方法和实证结果,特别是对 LoRA 默认使用的挑战以及光谱崩溃的识别,为该领域的研究人员和从业者提供了宝贵的见解。本文的贡献在于其严格的评估和关于在 RLVR 中选择 PEFT 方法的可操作建议。

引用

DoRA、AdaLoRA 和 MiSS 等结构变体始终优于 LoRA。