G-KV: 基于全局注意力机制的解码时KV缓存驱逐优化LLM推理

Research#LLM Inference🔬 Research|分析: 2026年1月10日 13:52
发布: 2025年11月29日 14:21
1分で読める
ArXiv

分析

这项研究探索了一种新方法,通过在解码阶段战略性地管理Key-Value (KV) 缓存来提高大型语言模型 (LLM) 的推理效率。该论文的贡献在于其提出的利用全局注意力机制进行 KV 缓存驱逐的方法。
引用 / 来源
查看原文
"The research focuses on decoding-time KV cache eviction with global attention."
A
ArXiv2025年11月29日 14:21
* 根据版权法第32条进行合法引用。