長いコンテキストを持つLMMs向け適応型ビジュアルトークン剪定

Research Paper #Large Multimodal Models (LMMs), Visual Token Pruning, Long Context 🔬 Research|分析: 2026年1月3日 19:39•

公開: 2025年12月28日 02:40

•

1分で読める

分析

この論文は、長いコンテキストと複数の画像を扱う際の大規模マルチモーダルモデル（LMM）における計算コストの問題に対処しています。 intra-imageとinter-imageの冗長性の両方を考慮し、パフォーマンスを維持しながらビジュアルトークンの数を削減する新しい適応型剪定方法、TrimTokenator-LCを提案しています。これは、特に広範な視覚情報を含むシナリオにおいて、LMMの応用の実用的なボトルネックに対処しているため重要です。

重要ポイント

引用・出典

原文を見る

"The approach can reduce up to 80% of visual tokens while maintaining performance in long context settings."

ArXiv2025年12月28日 02:40

* 著作権法第32条に基づく適法な引用です。

古い記事

Tilings of $\mathcal{H}_{q}(n,w)$ with optimal $(n,d,w)_{q}$-codes

新しい記事

Full-bandwidth, continuous, and grayscale 3D nanolithography via line-illumination temporal focusing of ultrafast lasers

長いコンテキストを持つLMMs向け適応型ビジュアルトークン剪定

分析

重要ポイント

関連分析

SpaceTimePilot：空間と時間の制御による生成ビデオレンダリング

量子カオスハミルトニアン進化におけるランダム性生成

GaMO：幾何学認識拡散を用いた疎視点3D再構成

📬 AIニュースを受信

カテゴリで探す

トレンドトピック

📬 AIニュースを受信

カテゴリで探す

トレンドトピック