Encyclo-K:LLM評価のための新しいベンチマーク

Research Paper#Large Language Models (LLMs), Benchmarking🔬 Research|分析: 2026年1月3日 08:37
公開: 2025年12月31日 13:55
1分で読める
ArXiv

分析

この論文は、大規模言語モデル(LLM)を評価するための新しいベンチマークであるEncyclo-Kを紹介しています。既存のベンチマークの限界に対処するため、知識ステートメントをコアユニットとして使用し、そこから動的に質問を構成します。このアプローチは、データ汚染に対する堅牢性の向上、複数知識の理解の評価、および注釈コストの削減を目的としています。結果は、高度なLLMでさえベンチマークに苦戦しており、モデルのパフォーマンスを挑戦し、区別する上での有効性を強調しています。
引用・出典
原文を見る
"Even the top-performing OpenAI-GPT-5.1 achieves only 62.07% accuracy, and model performance displays a clear gradient distribution."
A
ArXiv2025年12月31日 13:55
* 著作権法第32条に基づく適法な引用です。