M3 Ultra 512GB上 GLM-4.7-6bit MLX vs MiniMax-M2.1-6bit MLX 基准测试结果
分析
本文展示了在配备512GB内存的Apple M3 Ultra上,GLM-4.7-6bit MLX和MiniMax-M2.1-6bit MLX模型的基准测试结果。基准测试侧重于不同上下文大小(0.5k到64k)下的提示处理速度、token生成速度和内存使用情况。结果表明,MiniMax-M2.1在提示处理和token生成速度方面均优于GLM-4.7。文章还提到了4位和6位量化之间的权衡,指出虽然4位提供更低的内存使用量,但6位提供类似的性能。用户根据基准测试结果表示更喜欢MiniMax-M2.1。这些数据为用户在Apple芯片上选择这些模型进行本地LLM部署提供了宝贵的见解。
要点
引用
“根据基准测试结果,我更喜欢minimax-m2.1用于一般用途,提示处理速度约为2.5倍,token生成速度约为2倍。”