M2G-Eval: マルチ粒度コード生成評価のためのベンチマーク

Research Paper#Code Generation, LLMs, Benchmarking🔬 Research|分析: 2026年1月3日 19:49
公開: 2025年12月27日 16:00
1分で読める
ArXiv

分析

この論文は、LLMのコード生成能力を評価するための新しいベンチマークであるM2G-Evalを紹介しています。M2G-Evalは、クラス、関数、ブロック、行の4つの粒度と18のプログラミング言語にわたって評価を行います。これは、単一の粒度と限られた言語に焦点を当てることが多い既存のベンチマークにおける大きなギャップに対処しています。マルチ粒度のアプローチにより、モデルの強みと弱みをより詳細に理解できます。人間が注釈を付けたテストインスタンスと汚染制御の組み込みは、評価の信頼性をさらに高めます。この論文の発見は、粒度間のパフォーマンスの違い、言語固有のバリエーション、および言語間の相関関係を浮き彫りにし、今後の研究とモデル開発に貴重な洞察を提供します。
引用・出典
原文を見る
"The paper reveals an apparent difficulty hierarchy, with Line-level tasks easiest and Class-level most challenging."
A
ArXiv2025年12月27日 16:00
* 著作権法第32条に基づく適法な引用です。