使用融合 Triton 内核的八元数 Bitnet:探索稀疏性和维度专业化
分析
这篇文章详细介绍了一个结合八元数和来自 Bitnet 的三元权重的实验,该实验使用自定义融合 Triton 内核实现。 主要创新是将多个 matmul 内核启动减少到单个融合内核,以及八元数头混合。 早期结果显示出快速收敛和良好的泛化,验证损失有时会低于训练损失。 该模型在训练过程中表现出趋向于高稀疏性(80-90%)的自然趋势,从而实现了显着的压缩。 此外,该模型似乎专门针对不同词性的不同维度,这表明八元数结构是有益的。 然而,作者承认需要进行更广泛的测试,以将性能与浮点模型或 BitNet 本身进行比较。
引用 / 来源
查看原文"Model converges quickly, but hard to tell if would be competitive with float models or BitNet itself since most of my toy models have only been trained for <1 epoch on the datasets using consumer hardware."