ReasonBENCH：LLM推理的（不）稳定性基准测试

Research #llm 🔬 Research|分析: 2026年1月4日 07:25•

发布: 2025年12月8日 18:26

•

1分で読める

分析

这篇文章介绍了 ReasonBENCH，这是一个旨在评估大型语言模型 (LLM) 在推理任务中的一致性和可靠性的基准测试。关注稳定性表明正在调查 LLM 在多次运行或不同条件下的表现，这对于实际应用至关重要。标题中使用“In”暗示了不稳定性，表明对 LLM 推理能力的批判性评估。

引用 / 来源

"ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning"

ArXiv2025年12月8日 18:26

* 根据版权法第32条进行合法引用。

Sark: Oblivious Integrity Without Global State

Incentives or Ontology? A Structural Rebuttal to OpenAI's Hallucination Thesis