Paper#llm🔬 Research分析: 2026年1月3日 19:40

WeDLM: 因果的注意機構と拡散復号によるLLM高速推論

公開:2025年12月28日 01:25
1分で読める
ArXiv

分析

本論文は、大規模言語モデル(LLM)の推論速度のボトルネックに対処しています。因果的注意機構を利用して、並列生成を可能にしつつ、プレフィックスKVキャッシングの効率性を維持する拡散復号フレームワークであるWeDLMを提案しています。主要な貢献は、因果的注意構造を壊すことなく並列復号を可能にする、Topological Reorderingと呼ばれる手法です。最適化された自己回帰(AR)ベースラインと比較して大幅な高速化を実証しており、実用的なLLM展開における拡散スタイルの復号の可能性を示しています。

参照

WeDLMは、強力なARバックボーンの品質を維持しつつ、大幅な高速化を実現し、困難な推論ベンチマークで最大3倍、低エントロピー生成体制で最大10倍に達します。重要なのは、私たちの比較が、一致した展開設定の下でvLLMによって提供されるARベースラインに対して行われており、拡散スタイルの復号が実際に最適化されたARエンジンを上回ることができることを示していることです。