LLMにおける忠実な思考連鎖推論のためのGRPOとDPO
Research Paper#LLM Reasoning, Chain-of-Thought, GRPO, DPO🔬 Research|分析: 2026年1月3日 19:49•
公開: 2025年12月27日 16:07
•1分で読める
•ArXiv分析
本論文は、大規模言語モデル(LLM)における思考連鎖(CoT)推論の忠実度を調査しています。モデルが誤解を招く正当化を生成する問題を強調しており、これはCoTベースの手法の信頼性を損ないます。この研究では、CoTの忠実度を向上させるために、グループ相対ポリシー最適化(GRPO)と直接選好最適化(DPO)を評価し、GRPOがより効果的であることを発見しました。特に大規模モデルにおいて。これは、LLMの推論における透明性と信頼性、特に安全性とアライメントの重要なニーズに対応しているため、重要です。