大型语言模型中推理行为的无监督发现Paper#llm🔬 Research|分析: 2026年1月3日 18:22•发布: 2025年12月30日 05:09•1分で読める•ArXiv分析本文介绍了一种无监督方法 (RISE),用于分析和控制大型语言模型 (LLM) 中的推理行为。它超越了人类定义的概念,通过使用稀疏自编码器来发现激活空间内可解释的推理向量。识别和操纵这些向量的能力允许在不重新训练模型的情况下控制特定的推理行为,例如反思和置信度。这非常重要,因为它提供了一种理解和影响 LLM 内部推理过程的新方法,可能导致更可控和可靠的 AI 系统。要点•提出了一个无监督框架 (RISE),用于发现 LLM 中的推理向量。•RISE 使用稀疏自编码器来识别可解释的推理行为。•无需重新训练即可控制特定的推理行为(例如,反思、置信度)。•发现了超越人类监督的新型推理行为。引用 / 来源查看原文"Targeted interventions on SAE-derived vectors can controllably amplify or suppress specific reasoning behaviors, altering inference trajectories without retraining."AArXiv2025年12月30日 05:09* 根据版权法第32条进行合法引用。较旧Drone Uses AI and 11,500 Crashes to Learn How to Fly较新Do AI detectors work? Students face false cheating accusations相关分析Paper基于选择策略的协调人形机器人操作2026年1月3日 06:10Paper从未对齐图像即时进行3D场景编辑2026年1月3日 06:10Paper用于未来预测的LLM预测2026年1月3日 06:10来源: ArXiv