Transformerにおける注意機構の勾配ダイナミクス

Research Paper#Transformer Attention, Gradient Descent, Bayesian Inference🔬 Research|分析: 2026年1月3日 16:27
公開: 2025年12月27日 05:31
1分で読める
ArXiv

分析

本論文は、クロスエントロピー学習がTransformerの注意ヘッドにおける注意スコアと値ベクトルをどのように形成するかを一次分析しています。 「アドバンテージベースのルーティング法則」と「責任加重更新」を明らかにし、正のフィードバックループを誘発し、クエリと値の専門化につながります。 この研究は、最適化(勾配フロー)を幾何学(ベイズ多様体)と機能(確率的推論)に結びつけ、Transformerがどのように学習するかについての洞察を提供します。
引用・出典
原文を見る
"The core result is an 'advantage-based routing law' for attention scores and a 'responsibility-weighted update' for values, which together induce a positive feedback loop."
A
ArXiv2025年12月27日 05:31
* 著作権法第32条に基づく適法な引用です。