エキスパートとルーターの結合によるMixture-of-Expertsの改善
分析
この論文は、Mixture-of-Experts (MoE)モデルにおける重要な制限、つまりルーターの決定とエキスパートの能力の間のミスマッチに対処しています。提案されたExpert-Router Coupling (ERC)損失は、ルーターとエキスパートを緊密に結合するための計算効率の良い方法を提供し、パフォーマンスの向上とエキスパートの専門化に関する洞察をもたらします。バッチサイズに依存しない固定計算コストは、以前の方法に対する大きな利点です。
重要ポイント
引用・出典
原文を見る"The ERC loss enforces two constraints: (1) Each expert must exhibit higher activation for its own proxy token than for the proxy tokens of any other expert. (2) Each proxy token must elicit stronger activation from its corresponding expert than from any other expert."