[模型发布] Genesis-152M-Instruct:探索小规模混合注意力+TTT
分析
这篇文章宣布发布 Genesis-152M-Instruct,这是一个专为研究目的而设计的小型语言模型。它侧重于探索 GLA、FoX、TTT、µP 和稀疏性等最新架构创新在受限数据环境中的交互作用。解决的关键问题是,在 1.5 亿参数规模下,架构设计能在多大程度上弥补有限的训练数据。该模型结合了多个 ICLR 2024-2025 的想法,包括混合注意力、测试时训练、选择性激活和 µP 缩放训练。虽然提供了基准测试,但作者强调这并非 SOTA 模型,而是一种架构探索,特别是与在更大的数据集上训练的模型相比。
引用
“在约 1.5 亿个参数的情况下,架构能在多大程度上弥补数据?”