MoE 突破:35B 模型在 8GB 显存上性能超越 27B 密集模型 2.4 倍

infrastructure#moe📝 Blog|分析: 2026年4月7日 20:23
发布: 2026年4月7日 07:40
1分で読める
Zenn DL

分析

这篇文章提供了关于混合专家模型(MoE)效率的精彩实证分析,打破了“大参数模型必须依赖大显存”的迷思。作者演示了 35B 参数的 MoE 模型如何在 RTX 4060 上实现比 27B 密集模型快 2.4 倍的推理速度,这归功于每个 Token 仅智能激活 3B 参数。这是一个展示架构效率如何在消费级硬件上释放高端性能的绝佳案例。
引用 / 来源
查看原文
"35B-A3B MoE (GPU 95%): Q4_K_M 量化约为 21GB。这也无法容纳在 8GB 中。但在 ngl=99 设置下,所有层都加载到了 GPU 上。原因在于 MoE 的结构。35B-A3B 拥有 256 个专家,但每个 Token 仅激活 8 个路由专家 + 1 个共享专家,相当于约 3B 参数。推理时 GPU 实际计算的仅是这 3B 的部分。"
Z
Zenn DL2026年4月7日 07:40
* 根据版权法第32条进行合法引用。