Encyclo-K:用于评估LLM的新基准

Research Paper#Large Language Models (LLMs), Benchmarking🔬 Research|分析: 2026年1月3日 08:37
发布: 2025年12月31日 13:55
1分で読める
ArXiv

分析

本文介绍了Encyclo-K,这是一个用于评估大型语言模型(LLM)的新型基准。它通过使用知识陈述作为核心单元,并从中动态地构建问题,解决了现有基准的局限性。这种方法旨在提高对数据污染的鲁棒性,评估多知识理解,并降低注释成本。结果表明,即使是先进的LLM也难以应对该基准,突出了其在挑战和区分模型性能方面的有效性。
引用 / 来源
查看原文
"Even the top-performing OpenAI-GPT-5.1 achieves only 62.07% accuracy, and model performance displays a clear gradient distribution."
A
ArXiv2025年12月31日 13:55
* 根据版权法第32条进行合法引用。