FEM-Bench:コード生成LLMを評価するための構造化された科学的推論ベンチマーク

Research#llm🔬 Research|分析: 2026年1月4日 10:45
公開: 2025年12月23日 19:40
1分で読める
ArXiv

分析

この記事では、コードを生成する大規模言語モデル(LLM)の科学的推論能力を評価するために設計された新しいベンチマーク、FEM-Benchを紹介しています。重点は、これらのモデルが構造化された科学的推論タスクをどの程度うまく処理できるかを評価することです。ソースはArXivであり、研究論文であることを示しています。
引用・出典
原文を見る
"FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs"
A
ArXiv2025年12月23日 19:40
* 著作権法第32条に基づく適法な引用です。