分析
Google DeepMind 的 mech interp 团队正在发布 Gemma Scope 2,这是一套在 Gemma 3 模型家族上训练的稀疏自编码器 (SAE) 和转码器。 此次发布比之前的版本有所改进,包括支持更复杂的模型、涵盖所有层和高达 27B 模型尺寸的更全面的发布,以及对聊天模型的关注。 该版本包括在不同站点(残差流、MLP 输出和注意力输出)上训练的 SAE 和 MLP 转码器。 尽管团队已不再优先研究 SAE 的基础研究,但他们希望这能成为社区的有用工具。
要点
引用
“该版本包含在 3 个不同站点(残差流、MLP 输出和注意力输出)上训练的 SAE,以及 MLP 转码器(有和没有仿射跳跃连接),适用于 Gemma 3 系列中 10 个模型的每一层(即 270m、1b、4b、12b 和 27b 的大小,每个模型的 PT 和 IT 版本)。”