Transformerにおける注意機構の勾配ダイナミクス
Research Paper#Transformer Attention, Gradient Descent, Bayesian Inference🔬 Research|分析: 2026年1月3日 16:27•
公開: 2025年12月27日 05:31
•1分で読める
•ArXiv分析
本論文は、クロスエントロピー学習がTransformerの注意ヘッドにおける注意スコアと値ベクトルをどのように形成するかを一次分析しています。 「アドバンテージベースのルーティング法則」と「責任加重更新」を明らかにし、正のフィードバックループを誘発し、クエリと値の専門化につながります。 この研究は、最適化(勾配フロー)を幾何学(ベイズ多様体)と機能(確率的推論)に結びつけ、Transformerがどのように学習するかについての洞察を提供します。