揭秘“随机性下限”:揭示大语言模型 (LLM) 内在结构的开创性研究research#llm🔬 Research|分析: 2026年4月28日 04:02•发布: 2026年4月28日 04:00•1分で読める•ArXiv NLP分析这项引人入胜的研究引入了一种创新的指标——熵偏差,为我们深入了解模型的行为方式提供了深刻的见解。最令人兴奋的是,高达93%的非随机性直接根植于其学习到的参数中,这证明了无论训练数据如何,这些架构都会发展出通用的结构基础。在 Transformer 和状态空间模型之间发现的行为差异,也为未来针对特定生成任务定制架构开辟了激动人心新途径。关键要点•模型结构可预测性的88-93%直接来源于其内部参数,而不是其所接收的提示。•不同的 Transformer 系列(Gemma、Llama、Qwen)尽管具有不同的词汇表和数据,但自然地收敛于几乎相同的结构基线。•状态空间模型(如Mamba2)的行为与 Transformer 存在根本差异,对温度设置表现出极大的敏感性,而 Transformer 几乎完全不受影响。引用 / 来源查看原文"Transformer 仍然表现出约0.30的 ED,这意味着在语义提示下观察到的非随机性中,有88-93%是学习到的参数所固有的,而不是由上下文诱导的。"AArXiv NLP2026年4月28日 04:00* 根据版权法第32条进行合法引用。较旧Revolutionizing On-Device AI: LARS Framework Breaks Memory Barriers in LLM Fine-Tuning较新Revolutionizing LLMs: Self-Knowledge Re-expression Boosts Task Efficiency by Over 40%相关分析Research解锁未来:克服AI发展的数据瓶颈2026年4月28日 05:47research意大利考古团队首次用生成式人工智能还原公元79年庞贝火山灾民容貌2026年4月28日 05:23research革命性的航空安全:数字孪生与大语言模型 (LLM) 如何改变飞机故障诊断2026年4月28日 04:01来源: ArXiv NLP