使用相位梯度流突破SSM的内存墙

Research Paper#Deep Learning, State Space Models, Memory Optimization🔬 Research|分析: 2026年1月3日 19:16
发布: 2025年12月28日 20:27
1分で読める
ArXiv

分析

本文解决了选择性状态空间模型 (SSM) 反向传播中的一个关键内存瓶颈,这限制了它们在大型基因组和其他长序列数据上的应用。 提出的相位梯度流 (PGF) 框架通过直接在状态空间流形中计算精确的解析导数来提供解决方案,避免了存储中间计算图的需要。 这带来了显着的内存节省(O(1) 内存复杂度)和改进的吞吐量,从而能够分析以前无法实现的极长序列。 PGF 的稳定性,即使在刚性 ODE 制度下,也是一个关键优势。
引用 / 来源
查看原文
"PGF delivers O(1) memory complexity relative to sequence length, yielding a 94% reduction in peak VRAM and a 23x increase in throughput compared to standard Autograd."
A
ArXiv2025年12月28日 20:27
* 根据版权法第32条进行合法引用。