M2G-Eval: マルチ粒度コード生成評価のためのベンチマーク

公開:2025年12月27日 16:00
1分で読める
ArXiv

分析

この論文は、LLMのコード生成能力を評価するための新しいベンチマークであるM2G-Evalを紹介しています。M2G-Evalは、クラス、関数、ブロック、行の4つの粒度と18のプログラミング言語にわたって評価を行います。これは、単一の粒度と限られた言語に焦点を当てることが多い既存のベンチマークにおける大きなギャップに対処しています。マルチ粒度のアプローチにより、モデルの強みと弱みをより詳細に理解できます。人間が注釈を付けたテストインスタンスと汚染制御の組み込みは、評価の信頼性をさらに高めます。この論文の発見は、粒度間のパフォーマンスの違い、言語固有のバリエーション、および言語間の相関関係を浮き彫りにし、今後の研究とモデル開発に貴重な洞察を提供します。

参照

論文は、行レベルのタスクが最も簡単で、クラスレベルが最も難しいという、明らかな難易度階層を明らかにしています。