Transformer 中注意力机制的梯度动力学

发布:2025年12月27日 05:31
1分で読める
ArXiv

分析

本文对交叉熵训练如何塑造 Transformer 注意力头中的注意力分数和值向量进行了 一阶分析。 它揭示了“基于优势的路由定律”和“责任加权更新”,从而引发了正反馈循环,导致查询和值的专业化。 这项工作将优化(梯度流)与几何(贝叶斯流形)和功能(概率推理)联系起来,提供了关于 Transformer 如何学习的见解。

引用

核心结果是注意力分数的“基于优势的路由定律”和值的“责任加权更新”,它们共同引发了正反馈循环。