ReasonBENCH:LLM推理的(不)稳定性基准测试

Research#llm🔬 Research|分析: 2026年1月4日 07:25
发布: 2025年12月8日 18:26
1分で読める
ArXiv

分析

这篇文章介绍了 ReasonBENCH,这是一个旨在评估大型语言模型 (LLM) 在推理任务中的一致性和可靠性的基准测试。 关注稳定性表明正在调查 LLM 在多次运行或不同条件下的表现,这对于实际应用至关重要。 标题中使用“In”暗示了不稳定性,表明对 LLM 推理能力的批判性评估。
引用 / 来源
查看原文
"ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning"
A
ArXiv2025年12月8日 18:26
* 根据版权法第32条进行合法引用。