Transformer 中注意力机制的梯度动力学

Research Paper#Transformer Attention, Gradient Descent, Bayesian Inference🔬 Research|分析: 2026年1月3日 16:27
发布: 2025年12月27日 05:31
1分で読める
ArXiv

分析

本文对交叉熵训练如何塑造 Transformer 注意力头中的注意力分数和值向量进行了 一阶分析。 它揭示了“基于优势的路由定律”和“责任加权更新”,从而引发了正反馈循环,导致查询和值的专业化。 这项工作将优化(梯度流)与几何(贝叶斯流形)和功能(概率推理)联系起来,提供了关于 Transformer 如何学习的见解。
引用 / 来源
查看原文
"The core result is an 'advantage-based routing law' for attention scores and a 'responsibility-weighted update' for values, which together induce a positive feedback loop."
A
ArXiv2025年12月27日 05:31
* 根据版权法第32条进行合法引用。