注意力机制混合(MoAS):在MHA、GQA和MQA之间动态路由以提高Transformer效率

Research#llm🔬 Research|分析: 2025年12月27日 04:59
发布: 2025年12月26日 05:00
1分で読める
ArXiv AI

分析

本文介绍了一种注意力机制混合(MoAS)的新方法,用于为Transformer模型中的每个token动态选择最佳注意力机制(MHA、GQA或MQA)。这解决了模型质量和推理效率之间的权衡,其中MHA提供高质量但存在大量KV缓存需求的问题,而GQA和MQA更有效率但可能性能较差。关键创新是一个学习到的路由器,可以动态选择最佳方案,优于静态平均。在WikiText-2上的实验结果验证了动态路由的有效性。代码的可用性增强了可重复性,并促进了该领域的进一步研究。这项研究对于优化资源受限环境下的Transformer模型以及在不牺牲性能的情况下提高整体效率具有重要意义。
引用 / 来源
查看原文
"We demonstrate that dynamic routing performs better than static averaging of schemes and achieves performance competitive with the MHA baseline while offering potential for conditional compute efficiency."
A
ArXiv AI2025年12月26日 05:00
* 根据版权法第32条进行合法引用。