Research Paper#Transformer Attention, Gradient Descent, Bayesian Inference🔬 Research分析: 2026年1月3日 16:27
Transformerにおける注意機構の勾配ダイナミクス
分析
本論文は、クロスエントロピー学習がTransformerの注意ヘッドにおける注意スコアと値ベクトルをどのように形成するかを一次分析しています。 「アドバンテージベースのルーティング法則」と「責任加重更新」を明らかにし、正のフィードバックループを誘発し、クエリと値の専門化につながります。 この研究は、最適化(勾配フロー)を幾何学(ベイズ多様体)と機能(確率的推論)に結びつけ、Transformerがどのように学習するかについての洞察を提供します。
重要ポイント
参照
“核心的な結果は、注意スコアに対する「アドバンテージベースのルーティング法則」と、値に対する「責任加重更新」であり、これらが連携して正のフィードバックループを誘発します。”