M3 Ultra 512GB上 GLM-4.7-6bit MLX vs MiniMax-M2.1-6bit MLX 基准测试结果
分析
本文展示了在配备512GB内存的Apple M3 Ultra上,GLM-4.7-6bit MLX和MiniMax-M2.1-6bit MLX模型的基准测试结果。基准测试侧重于不同上下文大小(0.5k到64k)下的提示处理速度、token生成速度和内存使用情况。结果表明,MiniMax-M2.1在提示处理和token生成速度方面均优于GLM-4.7。文章还提到了4位和6位量化之间的权衡,指出虽然4位提供更低的内存使用量,但6位提供类似的性能。用户根据基准测试结果表示更喜欢MiniMax-M2.1。这些数据为用户在Apple芯片上选择这些模型进行本地LLM部署提供了宝贵的见解。
要点
引用 / 来源
查看原文"I would prefer minimax-m2.1 for general usage from the benchmark result, about ~2.5x prompt processing speed, ~2x token generation speed"