CoreEval：通过构建抗污染数据集，提高LLM的可靠性

Research #LLM 🔬 Research|分析: 2026年1月10日 14:23•

发布: 2025年11月24日 08:44

•

1分で読める

分析

这篇ArXiv论文介绍了CoreEval，这是一种创建对污染具有鲁棒性的数据集的方法，这对于可靠的大型语言模型（LLM）评估至关重要。这项工作侧重于污染抵抗力，是确保LLM性能评估有效性和减轻偏差的重要贡献。

引用 / 来源

"CoreEval automatically builds contamination-resilient datasets."

ArXiv2025年11月24日 08:44

* 根据版权法第32条进行合法引用。

Reproducibility Challenges in Bayesian Optimization for Large Language Models

LLMs Automating Reading Comprehension Exercise Generation