模加法表示:几何等价性

发布:2025年12月31日 18:53
1分で読める
ArXiv

分析

本文质疑了不同的注意力机制会导致神经网络中模加法产生根本不同的电路的观点。它认为,尽管架构有所不同,但学习到的表示在拓扑和几何上是等价的。该方法侧重于将神经元组的集体行为分析为流形,使用拓扑工具来证明各种电路之间的相似性。这表明对神经网络如何学习和表示数学运算有了更深入的理解。

引用

统一注意和可训练注意架构都通过拓扑和几何等价的表示来实现相同的算法。