Transformerのスケーリング則:学習と汎化の統一理論

Research Paper#Large Language Models (LLMs), Transformers, Scaling Laws, Generalization🔬 Research|分析: 2026年1月3日 16:32
公開: 2025年12月26日 17:20
1分で読める
ArXiv

分析

この論文は、Transformerベースの言語モデルのスケーリング則を理解するための理論的枠組みを提供しています。経験的観察や玩具モデルを超え、学習ダイナミクスをODEとして形式化し、より現実的な設定でのSGDトレーニングを分析しています。主な貢献は、汎化誤差の収束の特性評価(相転移を含む)と、モデルサイズ、トレーニング時間、データセットサイズに対する個別のスケーリング則の導出です。この研究は、計算リソースがモデルのパフォーマンスにどのように影響するかを深く理解できるため、効率的なLLM開発に不可欠であり、重要です。
引用・出典
原文を見る
"The paper establishes a theoretical upper bound on excess risk characterized by a distinct phase transition. In the initial optimization phase, the excess risk decays exponentially relative to the computational cost. However, once a specific resource allocation threshold is crossed, the system enters a statistical phase, where the generalization error follows a power-law decay of Θ(C−1/6)."
A
ArXiv2025年12月26日 17:20
* 著作権法第32条に基づく適法な引用です。