基于距离的神经模型中梯度下降作为隐式EM
Research Paper#Neural Networks, Optimization, Bayesian Inference🔬 Research|分析: 2026年1月3日 06:26•
发布: 2025年12月31日 10:56
•1分で読める
•ArXiv分析
本文提供了一个直接的数学推导,表明在具有基于距离或能量的log-sum-exp结构的优化目标上进行梯度下降,实际上执行了期望最大化(EM)算法。这统一了各种学习机制,包括无监督混合模型、注意力机制和交叉熵分类,都基于单一机制。关键贡献是,关于每个距离的梯度就是负的后验责任的代数恒等式。这为理解神经网络中观察到的贝叶斯行为提供了一个新的视角,表明这源于目标函数的几何结构,而不是一种涌现的特性。