ModelCypher:用于分析LLM几何结构的开源工具包
分析
本文讨论了ModelCypher,这是一个旨在分析大型语言模型(LLM)内部几何结构的开源工具包。作者旨在通过提供测量和理解LLM在token生成之前内部运作的工具来揭开LLM的神秘面纱。该工具包包括诸如跨架构适配器传输、越狱检测以及最近论文中机器学习方法的实现等功能。一个关键发现是不同模型之间“语义素数”缺乏几何不变性,这表明普遍收敛而不是语言特异性。作者强调该工具包提供原始指标,并且正在积极开发中,鼓励贡献和反馈。
引用 / 来源
查看原文"I don't like the narrative that LLMs are inherently black boxes."