M2G-Eval: 用于代码生成评估的多粒度基准

Research Paper#Code Generation, LLMs, Benchmarking🔬 Research|分析: 2026年1月3日 19:49
发布: 2025年12月27日 16:00
1分で読める
ArXiv

分析

本文介绍了 M2G-Eval,这是一个新的基准,旨在评估 LLM 在多个粒度(类、函数、块、行)和 18 种编程语言中的代码生成能力。 这解决了现有基准中的一个重大差距,现有基准通常侧重于单一粒度和有限的语言。 多粒度方法可以更细致地了解模型的优缺点。 包含人工注释的测试实例和污染控制进一步增强了评估的可靠性。 本文的发现突出了不同粒度之间的性能差异、特定于语言的差异以及跨语言的相关性,为未来的研究和模型开发提供了宝贵的见解。
引用 / 来源
查看原文
"The paper reveals an apparent difficulty hierarchy, with Line-level tasks easiest and Class-level most challenging."
A
ArXiv2025年12月27日 16:00
* 根据版权法第32条进行合法引用。