分析
本文解决了稀疏自编码器(SAE)中特征冗余和不一致的问题,这阻碍了可解释性和可重用性。作者提出了一种新的蒸馏方法,即Distilled Matryoshka Sparse Autoencoders (DMSAEs),以提取有用特征的紧凑且一致的核心。这通过一个迭代蒸馏循环来实现,该循环使用梯度 x 激活来衡量特征贡献,并且仅保留最重要的特征。该方法在Gemma-2-2B上进行了验证,证明了学习到的特征的性能和可迁移性得到了提高。
要点
引用
“DMSAEs运行一个迭代蒸馏循环:训练一个具有共享核心的Matryoshka SAE,使用梯度X激活来衡量每个特征对最嵌套重建中下一个token损失的贡献,并且仅保留解释固定比例归属的最小子集。”