長文コンテキストのためのエンドツーエンドテスト時学習

Research Paper#Language Modeling, Transformers, Continual Learning, Test-Time Training🔬 Research|分析: 2026年1月3日 16:01
公開: 2025年12月29日 18:30
2分で読める
ArXiv

分析

本論文は、長文コンテキストの言語モデリングを継続学習問題として捉える新しいアプローチを提案しています。中核となるアイデアは、スライディングウィンドウアテンションを備えた標準的なTransformerアーキテクチャを使用し、次のトークン予測を通じてテスト時にモデルが学習できるようにすることです。このエンドツーエンドテスト時学習(TTT-E2E)アプローチは、初期化を改善するためのメタ学習と組み合わせることで、フルアテンションと同等の性能を維持しながら、一定の推論レイテンシを維持するという印象的なスケーリング特性を示しています。これは、効果的にスケーリングできないMambaやGated DeltaNetなどの既存の長文コンテキストモデルの限界に対処する上で重要な進歩です。一定の推論レイテンシは重要な利点であり、長いコンテキストに対してフルアテンションよりも高速です。
引用・出典
原文を見る
"TTT-E2E scales with context length in the same way as Transformer with full attention, while others, such as Mamba 2 and Gated DeltaNet, do not. However, similar to RNNs, TTT-E2E has constant inference latency regardless of context length, making it 2.7 times faster than full attention for 128K context."
A
ArXiv2025年12月29日 18:30
* 著作権法第32条に基づく適法な引用です。