[P] algebra-de-grok:可视化模算术网络中隐藏的几何相变

Research#llm📝 Blog|分析: 2025年12月28日 04:01
发布: 2025年12月28日 02:36
1分で読める
r/MachineLearning

分析

该项目提出了一种通过可视化训练期间出现的内部几何结构来理解神经网络中“grokking”的新方法。该工具允许用户通过跟踪嵌入的排列和监控结构连贯性来实时观察从记忆到泛化的转变。 主要创新在于使用几何和频谱分析,而不是仅仅依赖于损失指标,来检测 grokking 的开始。 通过可视化神经元激活的傅里叶频谱,该工具揭示了从嘈杂的记忆到稀疏、结构化泛化的转变。 这提供了对训练期间神经网络内部动态的更直观和深刻的理解,可能导致改进的训练策略和网络架构。 简约的设计和清晰的实现使其易于研究人员和从业人员集成到他们自己的工作流程中。
引用 / 来源
查看原文
"It exposes the exact moment a network switches from memorization to generalization ("grokking") by monitoring the geometric arrangement of embeddings in real-time."
R
r/MachineLearning2025年12月28日 02:36
* 根据版权法第32条进行合法引用。