新基准评估大型语言模型的自我认知Research#LLM🔬 Research|分析: 2026年1月10日 10:13•发布: 2025年12月17日 23:23•1分で読める•ArXiv分析这篇ArXiv文章介绍了一个新的基准测试Kalshibench,专注于使用预测市场评估大型语言模型 (LLMs) 的认知校准。 这是一个关键的研究领域,考察了 LLMs 对自身局限性和不确定性的理解程度。要点•Kalshibench 提供了一种评估 LLMs 了解其知识边界的新方法。•预测市场的使用允许对不确定性进行量化评估。•这项研究对于提高 LLMs 的可靠性和可信度具有意义。引用 / 来源查看原文"Kalshibench is a new benchmark for evaluating epistemic calibration via prediction markets."AArXiv2025年12月17日 23:23* 根据版权法第32条进行合法引用。较旧Analyzing Self-Disclosure for AI Understanding of Social Norms较新Unveiling Bias Across Languages in Large Language Models相关分析Research人类AI检测2026年1月4日 05:47Research侧重于实现的深度学习书籍2026年1月4日 05:49Research个性化 Gemini2026年1月4日 05:49来源: ArXiv