長いコンテキストを持つLMMs向け適応型ビジュアルトークン剪定

Research Paper#Large Multimodal Models (LMMs), Visual Token Pruning, Long Context🔬 Research|分析: 2026年1月3日 19:39
公開: 2025年12月28日 02:40
1分で読める
ArXiv

分析

この論文は、長いコンテキストと複数の画像を扱う際の大規模マルチモーダルモデル(LMM)における計算コストの問題に対処しています。 intra-imageとinter-imageの冗長性の両方を考慮し、パフォーマンスを維持しながらビジュアルトークンの数を削減する新しい適応型剪定方法、TrimTokenator-LCを提案しています。これは、特に広範な視覚情報を含むシナリオにおいて、LMMの応用の実用的なボトルネックに対処しているため重要です。
引用・出典
原文を見る
"The approach can reduce up to 80% of visual tokens while maintaining performance in long context settings."
A
ArXiv2025年12月28日 02:40
* 著作権法第32条に基づく適法な引用です。