解释:为什么Transformer使用LayerNorm而不是BatchNorm?(无需公式的工程必要性)
分析
这篇文章讨论了深度学习面试中一个常见的问题:为什么Transformer使用Layer Normalization (LN) 而不是 Batch Normalization (BatchNorm)。作者是一位人工智能研究员,表示不喜欢在面试中问这个问题,认为这往往会导致死记硬背而不是真正的理解。文章的重点是从实践的、工程的角度提供解释,避免复杂的数学公式。这种方法旨在提供更直观、更易于理解的解释,适合更广泛的受众。
引用
“文章以经典的面试问题开头:“为什么Transformer使用LayerNorm (LN)?””