MoEの躍進:35B-A3Bが27B Denseを2.4倍の速度で凌駕、8GB VRAMでの実力を検証

infrastructure#moe📝 Blog|分析: 2026年4月7日 20:23
公開: 2026年4月7日 07:40
1分で読める
Zenn DL

分析

この記事は、Mixture of Experts (MoE) の効率性に関する神話を見事に打ち破る実証的な分析を提供しています。著者は、35BパラメータのMoEモデルが、トークンごとに3Bのパラメータのみを活性化する知見により、RTX 4060という一般的なGPU上で27Bの密モデルより2.4倍高速な推論を実現できることを実証しました。消費者向けハードウェアで高性能を引き出す、アーキテクチャの効率性を示す素晴らしい事例です。
引用・出典
原文を見る
"35B-A3B MoE (GPU 95%): Q4_K_Mで約21GB。これも8GBに収まらない。だがngl=99で全層がGPUに載る。なぜか。MoEの構造が鍵になる。35B-A3Bは256個のエキスパートを持つが、1トークンあたり活性化するのは8個のルーテッドエキスパート+1個の共有エキスパートで、パラメータ換算で約3B。推論時にGPUが実際に計算するのはこの3B分だけだ。"
Z
Zenn DL2026年4月7日 07:40
* 著作権法第32条に基づく適法な引用です。