GEM活性化関数:TransformerとCNNでGELUを凌駕する滑らかな新機能
分析
この研究は、Geometric Monomial (GEM) という活性化関数のファミリーを提案し、ニューラルネットワークアーキテクチャにおける画期的な進展をもたらしました。純粋に有理数演算と滑らかな勾配を用いることでReLUに匹敵する性能を達成し、GEMは深いアーキテクチャにおける最適化の課題を効果的に解決しています。驚くべきことに、SE-GEMおよびE-GEMの派生型は、CIFAR-10やGPT-2などの主要なベンチマークにおいて、業界標準であるGELU機能を上回ることに成功し、モデル最適化における重要なマイルストーンとなっています。
重要ポイント
引用・出典
原文を見る"CIFAR-10 + ResNet-56において、SE-GEMはGELUを上回り(92.51%対92.44%)、GELUを凌駕した初のGEMファミリーの活性化関数となりました。"