LLMにおける動的なグローバルアテンションの学習
分析
本論文は、大規模言語モデル(LLM)がグローバルコンテキストにいつ注意を払うかを動的に決定するための手法であるAll-or-Here Attention(AHA)を紹介しています。これは、LLMの推論における大きなボトルネックであるフルアテンションの計算コストに対処するため重要です。バイナリールーターを使用することにより、AHAはローカルスライディングウィンドウアテンションとフルアテンションを効率的に切り替え、グローバルコンテキストへのアクセスを減らします。この発見は、フルアテンションがしばしば冗長であり、オンデマンドのグローバルコンテキストアクセスで効率的な推論を達成できることを示唆しています。これは、LLMの効率性とスケーラビリティを向上させるための重要な示唆です。