DeepSeekのmHC:残差接続の改善

Research#Deep Learning Architecture📝 Blog|分析: 2026年1月3日 06:31
公開: 2026年1月2日 15:44
1分で読める
r/LocalLLaMA

分析

この記事は、深層学習モデルにおける標準的な残差接続の限界に対処するDeepSeekの革新を強調しています。Manifold-Constrained Hyper-Connections (mHC)を導入することにより、DeepSeekは、残差接続をより柔軟にしようとする以前の試みに関連する不安定性の問題を解決します。彼らの解決策の核心は、学習可能な行列を二重確率的に制約することにあり、信号の安定性を確保し、勾配爆発を防ぎます。結果は、ベースラインモデルと比較して、安定性とパフォーマンスの大幅な改善を示しています。
引用・出典
原文を見る
"DeepSeek solved the instability by constraining the learnable matrices to be "Double Stochastic" (all elements ≧ 0, rows/cols sum to 1). Mathematically, this forces the operation to act as a weighted average (convex combination). It guarantees that signals are never amplified beyond control, regardless of network depth."
R
r/LocalLLaMA2026年1月2日 15:44
* 著作権法第32条に基づく適法な引用です。