夜莺：用于LLM服务的动态自适应推测解码

Paper #llm 🔬 Research|分析: 2026年1月3日 20:03•

发布: 2025年12月27日 00:57

•

1分で読める

分析

本文解决了在实际服务场景中，大型语言模型（LLM）的推测解码（SD）的一个关键限制。标准的SD使用固定的推测长度，在高负载下可能会损害性能。Nightjar引入了一种基于学习的方法来动态调整推测长度，通过适应不同的请求速率来提高吞吐量和延迟。这很重要，因为它使SD更适合用于生产LLM服务。

引用 / 来源

"Nightjar achieves up to 14.8% higher throughput and 20.2% lower latency compared to standard speculative decoding."

ArXiv2025年12月27日 00:57

* 根据版权法第32条进行合法引用。

Differentiable Inverse Modeling with Physics-Constrained Latent Diffusion for Heterogeneous Subsurface Parameter Fields

A Decomposition Method for Solving Sensitivity-Based Distributed Optimal Power Flow