用于长上下文的端到端测试时训练

Research Paper #Language Modeling, Transformers, Continual Learning, Test-Time Training 🔬 Research|分析: 2026年1月3日 16:01•

发布: 2025年12月29日 18:30

•

2分で読める

分析

本文提出了一种新的长上下文语言建模方法，将其定义为持续学习问题。核心思想是使用带有滑动窗口注意力的标准Transformer架构，并通过下一个token预测使模型在测试时学习。这种端到端测试时训练（TTT-E2E）方法，结合用于改进初始化的元学习，展示了令人印象深刻的缩放特性，与全注意力性能相匹配，同时保持恒定的推理延迟。这是一个重要的进步，因为它解决了现有长上下文模型的局限性，例如Mamba和Gated DeltaNet，这些模型难以有效扩展。恒定的推理延迟是一个关键优势，使其在长上下文情况下比全注意力更快。

要点

引用 / 来源

查看原文

"TTT-E2E scales with context length in the same way as Transformer with full attention, while others, such as Mamba 2 and Gated DeltaNet, do not. However, similar to RNNs, TTT-E2E has constant inference latency regardless of context length, making it 2.7 times faster than full attention for 128K context."

ArXiv2025年12月29日 18:30

* 根据版权法第32条进行合法引用。

较旧

OpenAI Tokenizer

较新

The OpenAI board was right

用于长上下文的端到端测试时训练

分析

要点

相关分析

SpaceTimePilot：时空控制的生成视频渲染

量子混沌哈密顿量演化下的随机性生成

GaMO：几何感知扩散用于稀疏视角3D重建

📬 获取AI新闻

按类别浏览

热门话题

📬 获取AI新闻

按类别浏览

热门话题