Encyclo-K:LLM評価のための新しいベンチマーク

公開:2025年12月31日 13:55
1分で読める
ArXiv

分析

この論文は、大規模言語モデル(LLM)を評価するための新しいベンチマークであるEncyclo-Kを紹介しています。既存のベンチマークの限界に対処するため、知識ステートメントをコアユニットとして使用し、そこから動的に質問を構成します。このアプローチは、データ汚染に対する堅牢性の向上、複数知識の理解の評価、および注釈コストの削減を目的としています。結果は、高度なLLMでさえベンチマークに苦戦しており、モデルのパフォーマンスを挑戦し、区別する上での有効性を強調しています。

参照

最高性能のOpenAI-GPT-5.1でさえ、62.07%の精度しか達成しておらず、モデルのパフォーマンスは明確な勾配分布を示しています。