DeepSeekのmHC:深層学習の揺るぎないバックボーンを改善

公開:2026年1月2日 15:40
1分で読める
r/singularity

分析

この記事は、深層学習モデルにおける残差接続の限界に対処するDeepSeekの革新を強調しています。Manifold-Constrained Hyper-Connections (mHC)を導入することにより、柔軟な情報ルーティングに関連する不安定性の問題を解決し、安定性とパフォーマンスの大幅な改善につながりました。彼らの解決策の核心は、学習可能な行列を二重確率的に制約することにあり、信号が制御不能に増幅されないようにしています。これは、モデルアーキテクチャにおける注目すべき進歩を表しています。

参照

DeepSeekは、学習可能な行列を「二重確率的」(すべての要素≧0、行/列の合計が1)に制約することにより、不安定性を解決しました。