使用小波变换探索Vision Transformer中的组合性

Research Paper#Vision Transformers, Compositionality, Wavelet Transforms🔬 Research|分析: 2026年1月3日 09:28
发布: 2025年12月30日 19:43
1分で読める
ArXiv

分析

本文通过使用离散小波变换 (DWT) 创建依赖于输入的基元,来研究 Vision Transformer (ViT) 的组合性。它改编了来自语言任务的框架,以分析 ViT 编码器如何构建信息。DWT 的使用提供了一种理解 ViT 表示的新方法,表明 ViT 可以在其潜在空间中表现出组合行为。
引用 / 来源
查看原文
"Primitives from a one-level DWT decomposition produce encoder representations that approximately compose in latent space."
A
ArXiv2025年12月30日 19:43
* 根据版权法第32条进行合法引用。