Paper#llm🔬 Research分析: 2026年1月3日 16:03

RxnBench:评估大型语言模型在科学文献中化学反应理解方面的表现

发布:2025年12月29日 16:05
1分で読める
ArXiv

分析

本文介绍了RxnBench,这是一个新的基准,用于评估多模态大型语言模型 (MLLMs) 理解科学文献中化学反应的能力。它强调了当前 MLLMs 在进行深度化学推理和结构识别方面的重大差距,尽管它们在提取显式文本方面表现出色。该基准的多层设计,包括 Single-Figure QA 和 Full-Document QA,提供了一个严格的评估框架。研究结果强调了改进特定领域视觉编码器和推理引擎的必要性,以推动化学领域的 AI 发展。

引用

模型擅长提取显式文本,但在深度化学逻辑和精确的结构识别方面存在困难。