LLaMA-3.2-3B fMRI风格探测:发现双向“受限 ↔ 表达”控制方向
分析
这篇文章描述了一个有趣的实验,使用fMRI风格的可视化来探测LLaMA-3.2-3B语言模型的内部运作。研究人员发现了一个单一的隐藏维度,它充当一个全局控制轴,影响模型的输出风格。通过操纵这个维度,他们可以平滑地在受限和表达模式之间切换模型的响应。这一发现突出了可解释性工具在揭示大型语言模型中隐藏的控制机制方面的潜力,提供了关于这些模型如何生成文本的见解,并可能实现对它们行为的更细微的控制。该方法很简单,使用Gradio UI和PyTorch钩子进行干预。
引用
“通过改变这个维度上的epsilon: 负ε:输出变得受限、程序化,并忠于指令 正ε:输出变得更加冗长、叙事性,并具有推测性”