推理接力:评估大型语言模型在数学推理中的稳定性和互换性
分析
这篇ArXiv论文探讨了在数学问题解决过程中,不同大型语言模型(LLM)之间推理链的互换性。核心问题是,一个模型部分完成的推理过程是否可以被另一个模型可靠地继续,即使是在不同的模型系列之间。该研究使用令牌级别的对数概率阈值来截断不同阶段的推理链,然后测试与其他模型的继续。评估流程包含一个过程奖励模型(PRM),用于评估逻辑连贯性和准确性。研究结果表明,混合推理链可以维持甚至提高性能,表明LLM推理过程具有一定程度的互换性和鲁棒性。这项研究对于理解LLM在复杂推理任务中的可信度和可靠性具有重要意义。