DeepSeekのmHC:残差接続の改善
分析
この記事は、深層学習モデルにおける標準的な残差接続の限界に対処するDeepSeekの革新を強調しています。Manifold-Constrained Hyper-Connections (mHC)を導入することにより、DeepSeekは、残差接続をより柔軟にしようとする以前の試みに関連する不安定性の問題を解決します。彼らの解決策の核心は、学習可能な行列を二重確率的に制約することにあり、信号の安定性を確保し、勾配爆発を防ぎます。結果は、ベースラインモデルと比較して、安定性とパフォーマンスの大幅な改善を示しています。
重要ポイント
参照
“DeepSeekは、学習可能な行列を「二重確率的」(すべての要素≧0、行/列の合計が1)に制約することにより、不安定性を解決しました。数学的には、これにより、操作が加重平均(凸結合)として機能することが強制されます。これにより、ネットワークの深さに関係なく、信号が制御を超えて増幅されることはありません。”