M3 Ultra 512GBにおけるGLM-4.7-6bit MLXとMiniMax-M2.1-6bit MLXのベンチマーク結果
分析
この記事では、512GBのRAMを搭載したApple M3 Ultra上で、GLM-4.7-6bit MLXモデルとMiniMax-M2.1-6bit MLXモデルを比較したベンチマーク結果を紹介しています。ベンチマークは、プロンプト処理速度、トークン生成速度、およびさまざまなコンテキストサイズ(0.5k〜64k)でのメモリ使用量に焦点を当てています。結果は、MiniMax-M2.1がプロンプト処理とトークン生成の両方の速度でGLM-4.7を上回っていることを示しています。この記事では、4ビットと6ビットの量子化のトレードオフにも触れており、4ビットはメモリ使用量が少ないものの、6ビットは同様のパフォーマンスを提供することに注意しています。ユーザーは、ベンチマークの結果に基づいてMiniMax-M2.1を好むと述べています。このデータは、AppleシリコンでのローカルLLMデプロイメントのためにこれらのモデルを選択するユーザーに貴重な洞察を提供します。
重要ポイント
引用・出典
原文を見る"I would prefer minimax-m2.1 for general usage from the benchmark result, about ~2.5x prompt processing speed, ~2x token generation speed"