M2G-Eval: 用于代码生成评估的多粒度基准

Research Paper #Code Generation, LLMs, Benchmarking 🔬 Research|分析: 2026年1月3日 19:49•

发布: 2025年12月27日 16:00

•

1分で読める

分析

本文介绍了 M2G-Eval，这是一个新的基准，旨在评估 LLM 在多个粒度（类、函数、块、行）和 18 种编程语言中的代码生成能力。这解决了现有基准中的一个重大差距，现有基准通常侧重于单一粒度和有限的语言。多粒度方法可以更细致地了解模型的优缺点。包含人工注释的测试实例和污染控制进一步增强了评估的可靠性。本文的发现突出了不同粒度之间的性能差异、特定于语言的差异以及跨语言的相关性，为未来的研究和模型开发提供了宝贵的见解。

要点

引用 / 来源

查看原文

"The paper reveals an apparent difficulty hierarchy, with Line-level tasks easiest and Class-level most challenging."

ArXiv2025年12月27日 16:00

* 根据版权法第32条进行合法引用。

较旧

On the Role of Discreteness in Diffusion LLMs

较新

Chain-of-thought Reviewing and Correction for Time Series Question Answering

M2G-Eval: 用于代码生成评估的多粒度基准

分析

要点

相关分析

SpaceTimePilot：时空控制的生成视频渲染

量子混沌哈密顿量演化下的随机性生成

GaMO：几何感知扩散用于稀疏视角3D重建

📬 获取AI新闻

按类别浏览

热门话题

📬 获取AI新闻

按类别浏览

热门话题