エキスパートとルーターの結合によるMixture-of-Expertsの改善

Paper#llm🔬 Research|分析: 2026年1月3日 18:49
公開: 2025年12月29日 13:03
1分で読める
ArXiv

分析

この論文は、Mixture-of-Experts (MoE)モデルにおける重要な制限、つまりルーターの決定とエキスパートの能力の間のミスマッチに対処しています。提案されたExpert-Router Coupling (ERC)損失は、ルーターとエキスパートを緊密に結合するための計算効率の良い方法を提供し、パフォーマンスの向上とエキスパートの専門化に関する洞察をもたらします。バッチサイズに依存しない固定計算コストは、以前の方法に対する大きな利点です。
引用・出典
原文を見る
"The ERC loss enforces two constraints: (1) Each expert must exhibit higher activation for its own proxy token than for the proxy tokens of any other expert. (2) Each proxy token must elicit stronger activation from its corresponding expert than from any other expert."
A
ArXiv2025年12月29日 13:03
* 著作権法第32条に基づく適法な引用です。