Transformer注意力机制作为贝叶斯推理:几何视角

发布:2025年12月27日 05:28
1分で読める
ArXiv

分析

本文深入分析了Transformer注意力机制如何执行贝叶斯推理。它通过创建已知真实后验的受控环境(“贝叶斯风洞”)来解决研究大型语言模型的局限性。研究结果表明,与MLP不同,Transformer能够准确地再现贝叶斯后验,突出了明显的架构优势。本文确定了这种推理背后一致的几何机制,涉及残差流、前馈网络和用于内容可寻址路由的注意力。这项工作意义重大,因为它提供了对Transformer如何实现贝叶斯推理的机械理解,弥合了小型、可验证的系统与在大型模型中观察到的推理能力之间的差距。

引用

Transformer以10^{-3}到10^{-4}比特的精度再现贝叶斯后验,而容量匹配的MLP则失败了几个数量级,从而确立了明确的架构分离。