長いコンテキストを持つLMMs向け適応型ビジュアルトークン剪定
Research Paper#Large Multimodal Models (LMMs), Visual Token Pruning, Long Context🔬 Research|分析: 2026年1月3日 19:39•
公開: 2025年12月28日 02:40
•1分で読める
•ArXiv分析
この論文は、長いコンテキストと複数の画像を扱う際の大規模マルチモーダルモデル(LMM)における計算コストの問題に対処しています。 intra-imageとinter-imageの冗長性の両方を考慮し、パフォーマンスを維持しながらビジュアルトークンの数を削減する新しい適応型剪定方法、TrimTokenator-LCを提案しています。これは、特に広範な視覚情報を含むシナリオにおいて、LMMの応用の実用的なボトルネックに対処しているため重要です。