長文コンテキストのためのエンドツーエンドテスト時学習

Research Paper #Language Modeling, Transformers, Continual Learning, Test-Time Training 🔬 Research|分析: 2026年1月3日 16:01•

公開: 2025年12月29日 18:30

•

2分で読める

分析

本論文は、長文コンテキストの言語モデリングを継続学習問題として捉える新しいアプローチを提案しています。中核となるアイデアは、スライディングウィンドウアテンションを備えた標準的なTransformerアーキテクチャを使用し、次のトークン予測を通じてテスト時にモデルが学習できるようにすることです。このエンドツーエンドテスト時学習（TTT-E2E）アプローチは、初期化を改善するためのメタ学習と組み合わせることで、フルアテンションと同等の性能を維持しながら、一定の推論レイテンシを維持するという印象的なスケーリング特性を示しています。これは、効果的にスケーリングできないMambaやGated DeltaNetなどの既存の長文コンテキストモデルの限界に対処する上で重要な進歩です。一定の推論レイテンシは重要な利点であり、長いコンテキストに対してフルアテンションよりも高速です。

重要ポイント

引用・出典

原文を見る

"TTT-E2E scales with context length in the same way as Transformer with full attention, while others, such as Mamba 2 and Gated DeltaNet, do not. However, similar to RNNs, TTT-E2E has constant inference latency regardless of context length, making it 2.7 times faster than full attention for 128K context."

ArXiv2025年12月29日 18:30

* 著作権法第32条に基づく適法な引用です。

古い記事

OpenAI Tokenizer

新しい記事

The OpenAI board was right

長文コンテキストのためのエンドツーエンドテスト時学習

分析

重要ポイント

関連分析

SpaceTimePilot：空間と時間の制御による生成ビデオレンダリング

量子カオスハミルトニアン進化におけるランダム性生成

GaMO：幾何学認識拡散を用いた疎視点3D再構成

📬 AIニュースを受信

カテゴリで探す

トレンドトピック

📬 AIニュースを受信

カテゴリで探す

トレンドトピック