使用小波变换探索Vision Transformer中的组合性

发布:2025年12月30日 19:43
1分で読める
ArXiv

分析

本文通过使用离散小波变换 (DWT) 创建依赖于输入的基元,来研究 Vision Transformer (ViT) 的组合性。它改编了来自语言任务的框架,以分析 ViT 编码器如何构建信息。DWT 的使用提供了一种理解 ViT 表示的新方法,表明 ViT 可以在其潜在空间中表现出组合行为。

引用

来自一级 DWT 分解的基元在潜在空间中产生近似组合的编码器表示。