HiSciBench:科学的知能のための階層型ベンチマーク
分析
この論文は、大規模言語モデル(LLM)とマルチモーダルモデルの科学的推論能力を評価するために設計された新しいベンチマーク、HiSciBenchを紹介しています。既存のベンチマークの限界に対処し、基本的なリテラシーから科学的発見まで、完全な科学的ワークフローを反映した階層的かつ学際的なフレームワークを提供します。マルチモーダル入力とクロスリンガル評価を含むベンチマークの包括的な性質は、科学的推論のさまざまな段階におけるモデルの能力の詳細な診断を可能にします。主要モデルの評価は、真の科学的知能の達成における課題を浮き彫りにし、将来のモデル開発のための実用的な洞察を提供し、大きなパフォーマンスギャップを明らかにしています。ベンチマークの公開は、この分野におけるさらなる研究を促進します。
重要ポイント
参照
“モデルは基本的なリテラシー課題で最大69%の精度を達成しますが、発見レベルの課題では25%に急落します。”