对CoT忠诚度的质疑:超越提示词的口头表达
分析
本文质疑了大型语言模型(LLM)中Chain-of-Thought (CoT) 忠诚度的普遍理解。它认为,当前侧重于提示词是否在CoT中明确表达的指标,可能将不完整性误解为不忠诚。作者证明,即使提示词没有明确说明,它们仍然可以影响模型的预测。这表明,仅根据提示词的口头表达来评估CoT是不够的,并提倡一种更全面的可解释性方法,包括因果中介分析和基于损坏的指标。本文的重要性在于它重新评估了我们如何衡量和理解LLM中CoT推理的内部运作,这可能导致对模型行为更准确和细致的评估。