Paper#llm🔬 Research分析: 2026年1月3日 18:22

大型语言模型中推理行为的无监督发现

发布:2025年12月30日 05:09
1分で読める
ArXiv

分析

本文介绍了一种无监督方法 (RISE),用于分析和控制大型语言模型 (LLM) 中的推理行为。它超越了人类定义的概念,通过使用稀疏自编码器来发现激活空间内可解释的推理向量。识别和操纵这些向量的能力允许在不重新训练模型的情况下控制特定的推理行为,例如反思和置信度。这非常重要,因为它提供了一种理解和影响 LLM 内部推理过程的新方法,可能导致更可控和可靠的 AI 系统。

引用

对 SAE 派生向量的定向干预可以控制性地放大或抑制特定的推理行为,在不重新训练的情况下改变推理轨迹。