Research#llm📝 Blog分析: 2025年12月25日 13:22

Andrej Karpathy 谈论来自可验证奖励的强化学习 (RLVR)

发布:2025年12月19日 23:07
2分で読める
Simon Willison

分析

这篇文章引用了 Andrej Karpathy 关于来自可验证奖励的强化学习 (RLVR) 作为 LLM 领域一项重大进展的观点。 Karpathy 认为,使用自动可验证的奖励来训练 LLM,尤其是在数学和代码谜题等环境中,会导致类似推理策略的自发发展。 这些策略包括将问题分解为中间计算,并采用各种问题解决技术。 DeepSeek R1 论文被引为示例。 这种方法代表着向更可验证和可解释的 AI 的转变,有可能缓解 LLM 中“黑盒”决策的问题。 关注可验证的奖励可能会带来更强大和可靠的 AI 系统。

引用

在 2025 年,来自可验证奖励的强化学习 (RLVR) 成为添加到此组合中的事实上的新主要阶段。 通过在许多环境(例如,考虑数学/代码难题)中针对自动可验证的奖励训练 LLM,LLM 会自发地开发看起来像人类“推理”的策略 - 它们学习将问题解决分解为中间计算,并且他们学习了许多来回解决问题的策略(有关示例,请参见 DeepSeek R1 论文)。