夜莺:用于LLM服务的动态自适应推测解码

Paper#llm🔬 Research|分析: 2026年1月3日 20:03
发布: 2025年12月27日 00:57
1分で読める
ArXiv

分析

本文解决了在实际服务场景中,大型语言模型(LLM)的推测解码(SD)的一个关键限制。标准的SD使用固定的推测长度,在高负载下可能会损害性能。Nightjar引入了一种基于学习的方法来动态调整推测长度,通过适应不同的请求速率来提高吞吐量和延迟。这很重要,因为它使SD更适合用于生产LLM服务。
引用 / 来源
查看原文
"Nightjar achieves up to 14.8% higher throughput and 20.2% lower latency compared to standard speculative decoding."
A
ArXiv2025年12月27日 00:57
* 根据版权法第32条进行合法引用。