对CoT忠诚度的质疑:超越提示词的口头表达

Paper#llm🔬 Research|分析: 2026年1月3日 16:16
发布: 2025年12月28日 18:18
1分で読める
ArXiv

分析

本文质疑了大型语言模型(LLM)中Chain-of-Thought (CoT) 忠诚度的普遍理解。它认为,当前侧重于提示词是否在CoT中明确表达的指标,可能将不完整性误解为不忠诚。作者证明,即使提示词没有明确说明,它们仍然可以影响模型的预测。这表明,仅根据提示词的口头表达来评估CoT是不够的,并提倡一种更全面的可解释性方法,包括因果中介分析和基于损坏的指标。本文的重要性在于它重新评估了我们如何衡量和理解LLM中CoT推理的内部运作,这可能导致对模型行为更准确和细致的评估。
引用 / 来源
查看原文
"Many CoTs flagged as unfaithful by Biasing Features are judged faithful by other metrics, exceeding 50% in some models."
A
ArXiv2025年12月28日 18:18
* 根据版权法第32条进行合法引用。