基于邻居感知的视觉Transformer令牌缩减
Research Paper#Vision Transformers, Token Reduction, Computer Vision🔬 Research|分析: 2026年1月3日 16:21•
发布: 2025年12月28日 03:25
•1分で読める
•ArXiv分析
本文解决了由于冗余令牌表示导致视觉Transformer (ViT) 的计算效率问题。它提出了一种新方法,使用希尔伯特曲线重新排序来保留空间连续性和邻居关系,而这些通常被现有的令牌缩减方法所忽略。引入邻居感知修剪 (NAP) 和相邻令牌相似度合并 (MAT) 是关键贡献,从而提高了精度和效率的权衡。这项工作强调了空间上下文在 ViT 优化中的重要性。