HiSciBench:科学的知能のための階層型ベンチマーク

Paper#llm🔬 Research|分析: 2026年1月3日 19:27
公開: 2025年12月28日 12:08
1分で読める
ArXiv

分析

この論文は、大規模言語モデル(LLM)とマルチモーダルモデルの科学的推論能力を評価するために設計された新しいベンチマーク、HiSciBenchを紹介しています。既存のベンチマークの限界に対処し、基本的なリテラシーから科学的発見まで、完全な科学的ワークフローを反映した階層的かつ学際的なフレームワークを提供します。マルチモーダル入力とクロスリンガル評価を含むベンチマークの包括的な性質は、科学的推論のさまざまな段階におけるモデルの能力の詳細な診断を可能にします。主要モデルの評価は、真の科学的知能の達成における課題を浮き彫りにし、将来のモデル開発のための実用的な洞察を提供し、大きなパフォーマンスギャップを明らかにしています。ベンチマークの公開は、この分野におけるさらなる研究を促進します。
引用・出典
原文を見る
"While models achieve up to 69% accuracy on basic literacy tasks, performance declines sharply to 25% on discovery-level challenges."
A
ArXiv2025年12月28日 12:08
* 著作権法第32条に基づく適法な引用です。