LLMにおける忠実な思考連鎖推論のためのGRPOとDPO

Research Paper#LLM Reasoning, Chain-of-Thought, GRPO, DPO🔬 Research|分析: 2026年1月3日 19:49
公開: 2025年12月27日 16:07
1分で読める
ArXiv

分析

本論文は、大規模言語モデル(LLM)における思考連鎖(CoT)推論の忠実度を調査しています。モデルが誤解を招く正当化を生成する問題を強調しており、これはCoTベースの手法の信頼性を損ないます。この研究では、CoTの忠実度を向上させるために、グループ相対ポリシー最適化(GRPO)と直接選好最適化(DPO)を評価し、GRPOがより効果的であることを発見しました。特に大規模モデルにおいて。これは、LLMの推論における透明性と信頼性、特に安全性とアライメントの重要なニーズに対応しているため、重要です。
引用・出典
原文を見る
"GRPO achieves higher performance than DPO in larger models, with the Qwen2.5-14B-Instruct model attaining the best results across all evaluation metrics."
A
ArXiv2025年12月27日 16:07
* 著作権法第32条に基づく適法な引用です。