DeepSeek的mHC:改进残差连接

发布:2026年1月2日 15:44
1分で読める
r/LocalLLaMA

分析

这篇文章重点介绍了DeepSeek在解决深度学习模型中标准残差连接的局限性方面的创新。通过引入Manifold-Constrained Hyper-Connections (mHC),DeepSeek解决了与之前尝试使残差连接更灵活相关的稳定性问题。他们解决方案的核心在于将可学习矩阵约束为双随机的,从而确保信号的稳定性并防止梯度爆炸。结果表明,与基线模型相比,稳定性和性能都有显著提高。

引用

DeepSeek通过将可学习矩阵约束为“双随机”(所有元素 ≧ 0,行/列总和为1)来解决不稳定性问题。从数学上讲,这迫使该操作充当加权平均(凸组合)。它保证了信号永远不会在失控的情况下被放大,无论网络深度如何。