Research#LLM🔬 Research分析: 2026年1月10日 10:13

新基准评估大型语言模型的自我认知

发布:2025年12月17日 23:23
1分で読める
ArXiv

分析

这篇ArXiv文章介绍了一个新的基准测试Kalshibench,专注于使用预测市场评估大型语言模型 (LLMs) 的认知校准。 这是一个关键的研究领域,考察了 LLMs 对自身局限性和不确定性的理解程度。

引用

Kalshibench 是一个通过预测市场评估认知校准的新基准。