用于长上下文的端到端测试时训练
Research Paper#Language Modeling, Transformers, Continual Learning, Test-Time Training🔬 Research|分析: 2026年1月3日 16:01•
发布: 2025年12月29日 18:30
•2分で読める
•ArXiv分析
本文提出了一种新的长上下文语言建模方法,将其定义为持续学习问题。核心思想是使用带有滑动窗口注意力的标准Transformer架构,并通过下一个token预测使模型在测试时学习。这种端到端测试时训练(TTT-E2E)方法,结合用于改进初始化的元学习,展示了令人印象深刻的缩放特性,与全注意力性能相匹配,同时保持恒定的推理延迟。这是一个重要的进步,因为它解决了现有长上下文模型的局限性,例如Mamba和Gated DeltaNet,这些模型难以有效扩展。恒定的推理延迟是一个关键优势,使其在长上下文情况下比全注意力更快。
要点
引用 / 来源
查看原文"TTT-E2E scales with context length in the same way as Transformer with full attention, while others, such as Mamba 2 and Gated DeltaNet, do not. However, similar to RNNs, TTT-E2E has constant inference latency regardless of context length, making it 2.7 times faster than full attention for 128K context."