Research Paper#Transformer Attention, Gradient Descent, Bayesian Inference🔬 Research分析: 2026年1月3日 16:27
Transformer 中注意力机制的梯度动力学
分析
本文对交叉熵训练如何塑造 Transformer 注意力头中的注意力分数和值向量进行了 一阶分析。 它揭示了“基于优势的路由定律”和“责任加权更新”,从而引发了正反馈循环,导致查询和值的专业化。 这项工作将优化(梯度流)与几何(贝叶斯流形)和功能(概率推理)联系起来,提供了关于 Transformer 如何学习的见解。
要点
引用
“核心结果是注意力分数的“基于优势的路由定律”和值的“责任加权更新”,它们共同引发了正反馈循环。”