M2G-Eval: マルチ粒度コード生成評価のためのベンチマーク

Research Paper #Code Generation, LLMs, Benchmarking 🔬 Research|分析: 2026年1月3日 19:49•

公開: 2025年12月27日 16:00

•

1分で読める

分析

この論文は、LLMのコード生成能力を評価するための新しいベンチマークであるM2G-Evalを紹介しています。M2G-Evalは、クラス、関数、ブロック、行の4つの粒度と18のプログラミング言語にわたって評価を行います。これは、単一の粒度と限られた言語に焦点を当てることが多い既存のベンチマークにおける大きなギャップに対処しています。マルチ粒度のアプローチにより、モデルの強みと弱みをより詳細に理解できます。人間が注釈を付けたテストインスタンスと汚染制御の組み込みは、評価の信頼性をさらに高めます。この論文の発見は、粒度間のパフォーマンスの違い、言語固有のバリエーション、および言語間の相関関係を浮き彫りにし、今後の研究とモデル開発に貴重な洞察を提供します。

重要ポイント

引用・出典

原文を見る

"The paper reveals an apparent difficulty hierarchy, with Line-level tasks easiest and Class-level most challenging."

ArXiv2025年12月27日 16:00

* 著作権法第32条に基づく適法な引用です。

古い記事

On the Role of Discreteness in Diffusion LLMs

新しい記事

Chain-of-thought Reviewing and Correction for Time Series Question Answering

M2G-Eval: マルチ粒度コード生成評価のためのベンチマーク

分析

重要ポイント

関連分析

SpaceTimePilot：空間と時間の制御による生成ビデオレンダリング

量子カオスハミルトニアン進化におけるランダム性生成

GaMO：幾何学認識拡散を用いた疎視点3D再構成

📬 AIニュースを受信

カテゴリで探す

トレンドトピック

📬 AIニュースを受信

カテゴリで探す

トレンドトピック