Research#llm🔬 Research分析: 2025年12月25日 03:55

Vision Transformerにおけるブロック再帰的ダイナミクス

公開:2025年12月24日 05:00
1分で読める
ArXiv Vision

分析

この論文では、Vision Transformer(ViT)の計算構造を説明するために、Block-Recurrent Hypothesis(BRH)が導入されています。中心的なアイデアは、ViTの深さを少数の再帰的に適用されるブロックで表現できるということであり、より効率的で解釈可能なアーキテクチャを示唆しています。著者らは、「Raptor」モデル(ViTのブロック再帰的代替モデル)をトレーニングし、大幅に少ないブロックで高い精度を達成することで、これを実証しています。この研究は、ViTアーキテクチャに関する新しい視点を提供し、標準的な階層化された見方を超えて、動的な解釈可能性とより効率的なモデル設計への道を開きます。この発見は、ViTが最適化と内部動作のより深い理解のために利用できる固有の冗長性を持っている可能性があることを示唆しています。

参照

学習済みのViTは、元の$L$ブロックの計算が、再帰的に適用されるわずか$k \ll L$個の異なるブロックを使用して正確に書き換えられるような、ブロック再帰的な深さ構造を認める。