M2G-Eval: マルチ粒度コード生成評価のためのベンチマーク
Research Paper#Code Generation, LLMs, Benchmarking🔬 Research|分析: 2026年1月3日 19:49•
公開: 2025年12月27日 16:00
•1分で読める
•ArXiv分析
この論文は、LLMのコード生成能力を評価するための新しいベンチマークであるM2G-Evalを紹介しています。M2G-Evalは、クラス、関数、ブロック、行の4つの粒度と18のプログラミング言語にわたって評価を行います。これは、単一の粒度と限られた言語に焦点を当てることが多い既存のベンチマークにおける大きなギャップに対処しています。マルチ粒度のアプローチにより、モデルの強みと弱みをより詳細に理解できます。人間が注釈を付けたテストインスタンスと汚染制御の組み込みは、評価の信頼性をさらに高めます。この論文の発見は、粒度間のパフォーマンスの違い、言語固有のバリエーション、および言語間の相関関係を浮き彫りにし、今後の研究とモデル開発に貴重な洞察を提供します。