面向长上下文LMMs的自适应视觉Token剪枝

Research Paper#Large Multimodal Models (LMMs), Visual Token Pruning, Long Context🔬 Research|分析: 2026年1月3日 19:39
发布: 2025年12月28日 02:40
1分で読める
ArXiv

分析

本文解决了大型多模态模型(LMM)在处理长上下文和多图像时的计算成本问题。它提出了一种新的自适应剪枝方法TrimTokenator-LC,该方法考虑了intra-image和inter-image的冗余,以减少视觉token的数量,同时保持性能。这很重要,因为它解决了LMM应用中的一个实际瓶颈,特别是在涉及大量视觉信息的场景中。
引用 / 来源
查看原文
"The approach can reduce up to 80% of visual tokens while maintaining performance in long context settings."
A
ArXiv2025年12月28日 02:40
* 根据版权法第32条进行合法引用。