新型LLM量化方法优于现有方法research#llm📝 Blog|分析: 2026年1月31日 13:32•发布: 2026年1月31日 11:27•1分で読める•r/LocalLLaMA分析这对使用本地LLM的任何人来说都是令人兴奋的消息! 一位用户发现,由于其较小的尺寸而经常被忽视的 MXFP4 量化,实际上在困惑度方面比 Q4_K_M 和 Q4_K_XL 表现更好。 这一发现可能会彻底改变我们优化 LLM 速度和效率的方式。要点•MXFP4量化,尽管较小,但优于 Q4_K_M 和 Q4_K_XL。•这项研究使用 llama.cpp 进行,并在 GLM-4.7-Flash 和 Nemotron-3-nano 模型上进行了测试。•这些发现基于困惑度分数,该分数衡量模型预测文本的准确程度。引用 / 来源查看原文"我发现 MXFP4 的困惑度低于 Q4_K_M 和 Q4_K_XL。"Rr/LocalLLaMA2026年1月31日 11:27* 根据版权法第32条进行合法引用。较旧Beelzebub: An LLM-Powered Honeypot Observes Cyberattack Aftermath较新AI's Precision Power: Reducing Errors and Boosting Efficiency相关分析research早期用户洞察:探索Gemini的提问策略2026年4月1日 17:34research机器学习最佳大学选择:CMU vs. 伯克利2026年4月1日 17:04research大型语言模型令人兴奋的新进展!2026年4月1日 18:17来源: r/LocalLLaMA