在稀疏自编码器中蒸馏一致的特征
分析
本文解决了稀疏自编码器(SAE)中特征冗余和不一致的问题,这阻碍了可解释性和可重用性。作者提出了一种新的蒸馏方法,即Distilled Matryoshka Sparse Autoencoders (DMSAEs),以提取有用特征的紧凑且一致的核心。这通过一个迭代蒸馏循环来实现,该循环使用梯度 x 激活来衡量特征贡献,并且仅保留最重要的特征。该方法在Gemma-2-2B上进行了验证,证明了学习到的特征的性能和可迁移性得到了提高。
要点
引用 / 来源
查看原文"DMSAEs run an iterative distillation cycle: train a Matryoshka SAE with a shared core, use gradient X activation to measure each feature's contribution to next-token loss in the most nested reconstruction, and keep only the smallest subset that explains a fixed fraction of the attribution."