用于LLM中忠实链式思考推理的GRPO和DPO

Research Paper#LLM Reasoning, Chain-of-Thought, GRPO, DPO🔬 Research|分析: 2026年1月3日 19:49
发布: 2025年12月27日 16:07
1分で読める
ArXiv

分析

本文研究了大型语言模型(LLM)中链式思考(CoT)推理的忠实性。它强调了模型生成误导性理由的问题,这损害了基于CoT的方法的可靠性。该研究评估了组相对策略优化(GRPO)和直接偏好优化(DPO)以提高CoT的忠实性,发现GRPO更有效,尤其是在大型模型中。这很重要,因为它解决了LLM推理中对透明度和可信度的关键需求,特别是对于安全性和对齐。
引用 / 来源
查看原文
"GRPO achieves higher performance than DPO in larger models, with the Qwen2.5-14B-Instruct model attaining the best results across all evaluation metrics."
A
ArXiv2025年12月27日 16:07
* 根据版权法第32条进行合法引用。