GEM激活函数:在Transformer和CNN中超越GELU的平滑新函数
分析
这项研究提出了Geometric Monomial (GEM) 激活函数家族,为神经网络架构带来了激动人心的进步。通过纯有理算术和平滑梯度实现类似ReLU的性能,GEM有效解决了深度架构中的优化障碍。令人印象深刻的是,在CIFAR-10和GPT-2等主要基准测试中,SE-GEM和E-GEM变体已经成功超越了行业标准的GELU函数,标志着模型优化的一个重要里程碑。
关键要点
引用 / 来源
查看原文"在CIFAR-10 + ResNet-56上,SE-GEM超越了GELU(92.51%对92.44%),成为首个超越GELU的GEM系列激活函数。"