Transformer 中注意力机制的梯度动力学
Research Paper#Transformer Attention, Gradient Descent, Bayesian Inference🔬 Research|分析: 2026年1月3日 16:27•
发布: 2025年12月27日 05:31
•1分で読める
•ArXiv分析
本文对交叉熵训练如何塑造 Transformer 注意力头中的注意力分数和值向量进行了 一阶分析。 它揭示了“基于优势的路由定律”和“责任加权更新”,从而引发了正反馈循环,导致查询和值的专业化。 这项工作将优化(梯度流)与几何(贝叶斯流形)和功能(概率推理)联系起来,提供了关于 Transformer 如何学习的见解。