Research#llm🔬 Research分析: 2025年12月25日 09:40

揭示大型语言模型及其基准测试中的能力差距

发布:2025年12月25日 05:00
1分で読める
ArXiv NLP

分析

本文介绍了一种使用稀疏自动编码器 (SAE) 的新方法,用于识别大型语言模型 (LLM) 中的能力差距及其基准测试中的不平衡。该方法提取 SAE 概念激活并计算显着性加权性能分数,从而将评估建立在模型的内部表示之上。研究表明,LLM 在与奉承形成对比的概念以及与安全相关的概念方面通常表现不佳,这与现有研究一致。此外,它强调了基准差距,其中与服从相关的概念被过度表示,而其他相关概念则缺失。这种自动化的、无监督的方法提供了一个有价值的工具,通过识别模型和基准测试中需要改进的领域来改进 LLM 的评估和开发,最终带来更强大和可靠的 AI 系统。

引用

我们发现这些模型在与奉承行为形成对比的概念(例如,礼貌地拒绝请求或坚持界限)以及与安全讨论相关的概念方面始终表现不佳。