推理接力:评估大型语言模型在数学推理中的稳定性和可互换性

Research#llm🔬 Research|分析: 2026年1月4日 10:44
发布: 2025年12月16日 02:56
1分で読める
ArXiv

分析

这篇文章来自ArXiv,重点关注大型语言模型(LLM)在数学推理领域的评估。它调查了这些模型的稳定性和可互换性,这对于它们的实际应用至关重要。这项研究可能探讨了不同的LLM在数学任务上的表现,以及它们的输出是否一致并且可以互换使用。标题表明重点关注LLM在特定复杂任务中的鲁棒性和可靠性。

要点

    引用 / 来源
    查看原文
    "Reasoning Relay: Evaluating Stability and Interchangeability of Large Language Models in Mathematical Reasoning"
    A
    ArXiv2025年12月16日 02:56
    * 根据版权法第32条进行合法引用。