Research#llm📝 Blog分析: 2025年12月26日 18:41

M3 Ultra 512GB上 GLM-4.7-6bit MLX vs MiniMax-M2.1-6bit MLX 基准测试结果

发布:2025年12月26日 16:35
1分で読める
r/LocalLLaMA

分析

本文展示了在配备512GB内存的Apple M3 Ultra上,GLM-4.7-6bit MLX和MiniMax-M2.1-6bit MLX模型的基准测试结果。基准测试侧重于不同上下文大小(0.5k到64k)下的提示处理速度、token生成速度和内存使用情况。结果表明,MiniMax-M2.1在提示处理和token生成速度方面均优于GLM-4.7。文章还提到了4位和6位量化之间的权衡,指出虽然4位提供更低的内存使用量,但6位提供类似的性能。用户根据基准测试结果表示更喜欢MiniMax-M2.1。这些数据为用户在Apple芯片上选择这些模型进行本地LLM部署提供了宝贵的见解。

引用

根据基准测试结果,我更喜欢minimax-m2.1用于一般用途,提示处理速度约为2.5倍,token生成速度约为2倍。