HiSciBench:用于科学智能的层次化基准
分析
本文介绍了HiSciBench,这是一个新的基准,旨在评估大型语言模型(LLM)和多模态模型的科学推理能力。它通过提供一个分层和多学科的框架来解决现有基准的局限性,该框架反映了从基本素养到科学发现的完整科学工作流程。该基准的全面性,包括多模态输入和跨语言评估,可以详细诊断模型在科学推理不同阶段的能力。对领先模型的评估揭示了显著的性能差距,突出了实现真正科学智能的挑战,并为未来的模型开发提供了可操作的见解。该基准的公开发布将促进该领域的进一步研究。