M2G-Eval: 用于代码生成评估的多粒度基准
分析
本文介绍了 M2G-Eval,这是一个新的基准,旨在评估 LLM 在多个粒度(类、函数、块、行)和 18 种编程语言中的代码生成能力。 这解决了现有基准中的一个重大差距,现有基准通常侧重于单一粒度和有限的语言。 多粒度方法可以更细致地了解模型的优缺点。 包含人工注释的测试实例和污染控制进一步增强了评估的可靠性。 本文的发现突出了不同粒度之间的性能差异、特定于语言的差异以及跨语言的相关性,为未来的研究和模型开发提供了宝贵的见解。
要点
引用
“论文揭示了一个明显的难度等级,其中行级任务最容易,类级任务最具挑战性。”