Research#llm📝 Blog分析: 2025年12月28日 04:01

[P] algebra-de-grok: モジュラー算術ネットワークにおける隠れた幾何学的相転移の可視化

公開:2025年12月28日 02:36
1分で読める
r/MachineLearning

分析

このプロジェクトは、トレーニング中に現れる内部幾何学的構造を可視化することにより、ニューラルネットワークにおける「grokking」を理解するための新しいアプローチを提示します。このツールを使用すると、埋め込みの配置を追跡し、構造的コヒーレンスを監視することで、暗記から一般化への移行をリアルタイムで観察できます。主な革新は、損失メトリックにのみ依存するのではなく、幾何学的およびスペクトル分析を使用して、grokkingの開始を検出することにあります。ニューロンの活性化のフーリエスペクトルを可視化することにより、このツールは、ノイズの多い暗記からスパースで構造化された一般化へのシフトを明らかにします。これにより、トレーニング中のニューラルネットワークの内部ダイナミクスをより直感的かつ洞察的に理解できるようになり、トレーニング戦略とネットワークアーキテクチャの改善につながる可能性があります。ミニマリストな設計と明確な実装により、研究者や実務家が独自のワークフローに統合しやすくなっています。

参照

ネットワークが暗記から一般化(「grokking」)に切り替わる正確な瞬間を、埋め込みの幾何学的配置をリアルタイムで監視することで明らかにします。