スパースオートエンコーダにおける一貫性のある特徴の蒸留

Paper#LLM🔬 Research|分析: 2026年1月3日 06:17
公開: 2025年12月31日 17:12
1分で読める
ArXiv

分析

この論文は、解釈性と再利用を妨げるスパースオートエンコーダ(SAE)における特徴の冗長性と不整合性の問題に取り組んでいます。著者は、有用な特徴のコンパクトで一貫性のあるコアを抽出するために、Distilled Matryoshka Sparse Autoencoders(DMSAEs)という新しい蒸留方法を提案しています。これは、勾配x活性化を使用して特徴の貢献度を測定し、最も重要な特徴のみを保持する反復蒸留サイクルによって実現されます。このアプローチはGemma-2-2Bで検証され、学習した特徴のパフォーマンスと転送可能性が向上することが示されています。
引用・出典
原文を見る
"DMSAEs run an iterative distillation cycle: train a Matryoshka SAE with a shared core, use gradient X activation to measure each feature's contribution to next-token loss in the most nested reconstruction, and keep only the smallest subset that explains a fixed fraction of the attribution."
A
ArXiv2025年12月31日 17:12
* 著作権法第32条に基づく適法な引用です。