WeDLM: 因果的注意機構と拡散復号によるLLM高速推論

Paper#llm🔬 Research|分析: 2026年1月3日 19:40
公開: 2025年12月28日 01:25
1分で読める
ArXiv

分析

本論文は、大規模言語モデル(LLM)の推論速度のボトルネックに対処しています。因果的注意機構を利用して、並列生成を可能にしつつ、プレフィックスKVキャッシングの効率性を維持する拡散復号フレームワークであるWeDLMを提案しています。主要な貢献は、因果的注意構造を壊すことなく並列復号を可能にする、Topological Reorderingと呼ばれる手法です。最適化された自己回帰(AR)ベースラインと比較して大幅な高速化を実証しており、実用的なLLM展開における拡散スタイルの復号の可能性を示しています。
引用・出典
原文を見る
"WeDLM preserves the quality of strong AR backbones while delivering substantial speedups, approaching 3x on challenging reasoning benchmarks and up to 10x in low-entropy generation regimes; critically, our comparisons are against AR baselines served by vLLM under matched deployment settings, demonstrating that diffusion-style decoding can outperform an optimized AR engine in practice."
A
ArXiv2025年12月28日 01:25
* 著作権法第32条に基づく適法な引用です。