注意力机制混合(MoAS):在MHA、GQA和MQA之间动态路由以提高Transformer效率
分析
本文介绍了一种注意力机制混合(MoAS)的新方法,用于为Transformer模型中的每个token动态选择最佳注意力机制(MHA、GQA或MQA)。这解决了模型质量和推理效率之间的权衡,其中MHA提供高质量但存在大量KV缓存需求的问题,而GQA和MQA更有效率但可能性能较差。关键创新是一个学习到的路由器,可以动态选择最佳方案,优于静态平均。在WikiText-2上的实验结果验证了动态路由的有效性。代码的可用性增强了可重复性,并促进了该领域的进一步研究。这项研究对于优化资源受限环境下的Transformer模型以及在不牺牲性能的情况下提高整体效率具有重要意义。
引用
“我们证明,动态路由比方案的静态平均表现更好,并且在提供有条件计算效率的潜力时,实现了与MHA基线相当的性能。”