Transformerにおける注意機構の勾配ダイナミクス

公開:2025年12月27日 05:31
1分で読める
ArXiv

分析

本論文は、クロスエントロピー学習がTransformerの注意ヘッドにおける注意スコアと値ベクトルをどのように形成するかを一次分析しています。 「アドバンテージベースのルーティング法則」と「責任加重更新」を明らかにし、正のフィードバックループを誘発し、クエリと値の専門化につながります。 この研究は、最適化(勾配フロー)を幾何学(ベイズ多様体)と機能(確率的推論)に結びつけ、Transformerがどのように学習するかについての洞察を提供します。

参照

核心的な結果は、注意スコアに対する「アドバンテージベースのルーティング法則」と、値に対する「責任加重更新」であり、これらが連携して正のフィードバックループを誘発します。