Paper#llm🔬 Research分析: 2026年1月3日 20:03

Nightjar:LLMサービングのための適応型投機的デコーディング

公開:2025年12月27日 00:57
1分で読める
ArXiv

分析

この論文は、実世界のサービングシナリオにおける大規模言語モデル(LLM)の投機的デコーディング(SD)の重要な制限に対処しています。標準的なSDは固定の投機長を使用しており、高負荷時にはパフォーマンスを低下させる可能性があります。Nightjarは、投機長を動的に調整するための学習ベースのアプローチを導入し、さまざまなリクエストレートに適応することで、スループットとレイテンシを向上させます。これは、SDを本番環境のLLMサービングにより実用的にするため、重要です。

参照

Nightjarは、標準的な投機的デコーディングと比較して、最大14.8%高いスループットと20.2%低いレイテンシを達成します。