LLMにおける動的なグローバルアテンションの学習

Paper#llm🔬 Research|分析: 2026年1月3日 19:54
公開: 2025年12月27日 11:21
1分で読める
ArXiv

分析

本論文は、大規模言語モデル(LLM)がグローバルコンテキストにいつ注意を払うかを動的に決定するための手法であるAll-or-Here Attention(AHA)を紹介しています。これは、LLMの推論における大きなボトルネックであるフルアテンションの計算コストに対処するため重要です。バイナリールーターを使用することにより、AHAはローカルスライディングウィンドウアテンションとフルアテンションを効率的に切り替え、グローバルコンテキストへのアクセスを減らします。この発見は、フルアテンションがしばしば冗長であり、オンデマンドのグローバルコンテキストアクセスで効率的な推論を達成できることを示唆しています。これは、LLMの効率性とスケーラビリティを向上させるための重要な示唆です。
引用・出典
原文を見る
"Up to 93% of full attention operations can be replaced by sliding window attention without performance loss."
A
ArXiv2025年12月27日 11:21
* 著作権法第32条に基づく適法な引用です。