LLaMA-3.2-3B fMRIスタイルのプロービング:双方向の「制約 ↔ 表現」制御方向を発見
分析
この記事は、LLaMA-3.2-3B言語モデルの内部構造をプロービングするために、fMRIスタイルの可視化を使用した興味深い実験について説明しています。研究者は、モデルの出力スタイルに影響を与えるグローバル制御軸として機能する単一の隠れ次元を特定しました。この次元を操作することにより、モデルの応答を抑制モードと表現モードの間でスムーズに移行させることができました。この発見は、大規模言語モデル内の隠れた制御メカニズムを明らかにするための解釈可能性ツールの可能性を強調しており、これらのモデルがどのようにテキストを生成し、潜在的にその動作をより微妙に制御できるようになるかについての洞察を提供しています。方法論は、Gradio UIとPyTorchフックを使用して介入を行うという、非常にわかりやすいものです。
重要ポイント
参照
“この1つの次元でイプシロンを変えることによって: 負のε:出力は抑制され、手続き的になり、指示に忠実になる 正のε:出力はより冗長になり、物語的になり、推測的になる”