ウェーブレット表現を用いたVision Transformerにおける構成性の探求

Research Paper#Vision Transformers, Compositionality, Wavelet Transforms🔬 Research|分析: 2026年1月3日 09:28
公開: 2025年12月30日 19:43
1分で読める
ArXiv

分析

本論文は、離散ウェーブレット変換(DWT)を用いて入力依存のプリミティブを作成することにより、Vision Transformer(ViT)の構成性を調査しています。言語タスクにおけるフレームワークを適用し、ViTエンコーダがどのように情報を構造化しているかを分析します。DWTの使用は、ViT表現を理解するための新しいアプローチを提供し、ViTが潜在空間で構成的な振る舞いを示す可能性があることを示唆しています。
引用・出典
原文を見る
"Primitives from a one-level DWT decomposition produce encoder representations that approximately compose in latent space."
A
ArXiv2025年12月30日 19:43
* 著作権法第32条に基づく適法な引用です。