Andrej Karpathy 谈论来自可验证奖励的强化学习 (RLVR)
分析
这篇文章引用了 Andrej Karpathy 关于来自可验证奖励的强化学习 (RLVR) 作为 LLM 领域一项重大进展的观点。 Karpathy 认为,使用自动可验证的奖励来训练 LLM,尤其是在数学和代码谜题等环境中,会导致类似推理策略的自发发展。 这些策略包括将问题分解为中间计算,并采用各种问题解决技术。 DeepSeek R1 论文被引为示例。 这种方法代表着向更可验证和可解释的 AI 的转变,有可能缓解 LLM 中“黑盒”决策的问题。 关注可验证的奖励可能会带来更强大和可靠的 AI 系统。
要点
引用
“在 2025 年,来自可验证奖励的强化学习 (RLVR) 成为添加到此组合中的事实上的新主要阶段。 通过在许多环境(例如,考虑数学/代码难题)中针对自动可验证的奖励训练 LLM,LLM 会自发地开发看起来像人类“推理”的策略 - 它们学习将问题解决分解为中间计算,并且他们学习了许多来回解决问题的策略(有关示例,请参见 DeepSeek R1 论文)。”