揭示大型语言模型及其基准测试中的能力差距

Research#llm🔬 Research|分析: 2025年12月25日 09:40
发布: 2025年12月25日 05:00
1分で読める
ArXiv NLP

分析

本文介绍了一种使用稀疏自动编码器 (SAE) 的新方法,用于识别大型语言模型 (LLM) 中的能力差距及其基准测试中的不平衡。该方法提取 SAE 概念激活并计算显着性加权性能分数,从而将评估建立在模型的内部表示之上。研究表明,LLM 在与奉承形成对比的概念以及与安全相关的概念方面通常表现不佳,这与现有研究一致。此外,它强调了基准差距,其中与服从相关的概念被过度表示,而其他相关概念则缺失。这种自动化的、无监督的方法提供了一个有价值的工具,通过识别模型和基准测试中需要改进的领域来改进 LLM 的评估和开发,最终带来更强大和可靠的 AI 系统。
引用 / 来源
查看原文
"We found that these models consistently underperformed on concepts that stand in contrast to sycophantic behaviors (e.g., politely refusing a request or asserting boundaries) and concepts connected to safety discussions."
A
ArXiv NLP2025年12月25日 05:00
* 根据版权法第32条进行合法引用。