STEMVerse:革新性评估大语言模型STEM能力
分析
STEMVerse 提供了一个开创性的诊断框架,用于评估大语言模型 (LLMs) 在 STEM 领域的技能。 通过映射学术专业和认知复杂性之间的性能,它比以前的方法提供了对 LLMs 推理优势和劣势更细致的理解。 这种新颖的方法有望显着推进未来 LLMs 的开发和完善。
关键要点
- •STEMVerse 引入了一个双轴框架来分析 LLM 的 STEM 推理,同时考虑学术专业和认知复杂性。
- •该框架重新聚合了 20,000 多个 STEM 问题,以创建一个统一的“学科 × 认知”能力空间。
- •STEMVerse 的结果揭示了 LLM 处理 STEM 推理任务的结构性失败模式。