新基准评估大型语言模型的自我认知

Research #LLM 🔬 Research|分析: 2026年1月10日 10:13•

发布: 2025年12月17日 23:23

•

1分で読める

分析

这篇ArXiv文章介绍了一个新的基准测试Kalshibench，专注于使用预测市场评估大型语言模型 (LLMs) 的认知校准。这是一个关键的研究领域，考察了 LLMs 对自身局限性和不确定性的理解程度。

引用 / 来源

"Kalshibench is a new benchmark for evaluating epistemic calibration via prediction markets."

ArXiv2025年12月17日 23:23

* 根据版权法第32条进行合法引用。

Analyzing Self-Disclosure for AI Understanding of Social Norms

Unveiling Bias Across Languages in Large Language Models