Yggdrasil:木構造推測を用いたLLMデコーディングの最適化
分析
この論文は、動的な推測デコーディングと静的なランタイムの仮定のミスマッチによって引き起こされるLLM推論のパフォーマンスボトルネックに対処しています。 Yggdrasilは、このギャップを埋め、レイテンシ最適化されたデコーディングを目指す共同設計システムを提案しています。主な貢献は、コンテキスト対応のツリードラフティング、コンパイラフレンドリーな実行、およびステージベースのスケジューリングにあり、既存の方法よりも大幅な高速化を実現しています。実用的な改善に焦点を当て、報告された高速化は注目に値します。