Vision Transformerにおけるブロック再帰的ダイナミクス
分析
この論文では、Vision Transformer(ViT)の計算構造を説明するために、Block-Recurrent Hypothesis(BRH)が導入されています。中心的なアイデアは、ViTの深さを少数の再帰的に適用されるブロックで表現できるということであり、より効率的で解釈可能なアーキテクチャを示唆しています。著者らは、「Raptor」モデル(ViTのブロック再帰的代替モデル)をトレーニングし、大幅に少ないブロックで高い精度を達成することで、これを実証しています。この研究は、ViTアーキテクチャに関する新しい視点を提供し、標準的な階層化された見方を超えて、動的な解釈可能性とより効率的なモデル設計への道を開きます。この発見は、ViTが最適化と内部動作のより深い理解のために利用できる固有の冗長性を持っている可能性があることを示唆しています。
重要ポイント
引用・出典
原文を見る"trained ViTs admit a block-recurrent depth structure such that the computation of the original $L$ blocks can be accurately rewritten using only $k \ll L$ distinct blocks applied recurrently."