WeDLM: 因果的注意機構と拡散復号によるLLM高速推論
分析
本論文は、大規模言語モデル(LLM)の推論速度のボトルネックに対処しています。因果的注意機構を利用して、並列生成を可能にしつつ、プレフィックスKVキャッシングの効率性を維持する拡散復号フレームワークであるWeDLMを提案しています。主要な貢献は、因果的注意構造を壊すことなく並列復号を可能にする、Topological Reorderingと呼ばれる手法です。最適化された自己回帰(AR)ベースラインと比較して大幅な高速化を実証しており、実用的なLLM展開における拡散スタイルの復号の可能性を示しています。
重要ポイント
引用・出典
原文を見る"WeDLM preserves the quality of strong AR backbones while delivering substantial speedups, approaching 3x on challenging reasoning benchmarks and up to 10x in low-entropy generation regimes; critically, our comparisons are against AR baselines served by vLLM under matched deployment settings, demonstrating that diffusion-style decoding can outperform an optimized AR engine in practice."