Research#llm📝 Blog分析: 2025年12月25日 22:17

使用融合 Triton 内核的八元数 Bitnet:探索稀疏性和维度专业化

发布:2025年12月25日 08:39
1分で読める
r/MachineLearning

分析

这篇文章详细介绍了一个结合八元数和来自 Bitnet 的三元权重的实验,该实验使用自定义融合 Triton 内核实现。 主要创新是将多个 matmul 内核启动减少到单个融合内核,以及八元数头混合。 早期结果显示出快速收敛和良好的泛化,验证损失有时会低于训练损失。 该模型在训练过程中表现出趋向于高稀疏性(80-90%)的自然趋势,从而实现了显着的压缩。 此外,该模型似乎专门针对不同词性的不同维度,这表明八元数结构是有益的。 然而,作者承认需要进行更广泛的测试,以将性能与浮点模型或 BitNet 本身进行比较。

引用

模型收敛很快,但很难判断是否能与浮点模型或 BitNet 本身竞争,因为我的大多数玩具模型只在使用消费级硬件的数据集上训练了不到 1 个 epoch。