新基准评估大型语言模型的自我认知

Research#LLM🔬 Research|分析: 2026年1月10日 10:13
发布: 2025年12月17日 23:23
1分で読める
ArXiv

分析

这篇ArXiv文章介绍了一个新的基准测试Kalshibench,专注于使用预测市场评估大型语言模型 (LLMs) 的认知校准。 这是一个关键的研究领域,考察了 LLMs 对自身局限性和不确定性的理解程度。
引用 / 来源
查看原文
"Kalshibench is a new benchmark for evaluating epistemic calibration via prediction markets."
A
ArXiv2025年12月17日 23:23
* 根据版权法第32条进行合法引用。