OTPrune: 通过最优传输优化令牌修剪,革新多模态AI推理
分析
OTPrune 引入了一种新颖的、无需训练的方法来加速多模态模型的推理。它利用最优传输来战略性地修剪视觉令牌,提高效率和表示保真度。 这种方法有望显着改善尖端人工智能的性能-效率权衡。
引用 / 来源
查看原文"通过最小化完整令牌分布和修剪后令牌分布之间的 2-Wasserstein 距离,OTPrune 在降低推理成本的同时,保留了局部多样性和全局代表性。"
"通过最小化完整令牌分布和修剪后令牌分布之间的 2-Wasserstein 距离,OTPrune 在降低推理成本的同时,保留了局部多样性和全局代表性。"