M3 Ultra 512GBにおけるGLM-4.7-6bit MLXとMiniMax-M2.1-6bit MLXのベンチマーク結果
分析
この記事では、512GBのRAMを搭載したApple M3 Ultra上で、GLM-4.7-6bit MLXモデルとMiniMax-M2.1-6bit MLXモデルを比較したベンチマーク結果を紹介しています。ベンチマークは、プロンプト処理速度、トークン生成速度、およびさまざまなコンテキストサイズ(0.5k〜64k)でのメモリ使用量に焦点を当てています。結果は、MiniMax-M2.1がプロンプト処理とトークン生成の両方の速度でGLM-4.7を上回っていることを示しています。この記事では、4ビットと6ビットの量子化のトレードオフにも触れており、4ビットはメモリ使用量が少ないものの、6ビットは同様のパフォーマンスを提供することに注意しています。ユーザーは、ベンチマークの結果に基づいてMiniMax-M2.1を好むと述べています。このデータは、AppleシリコンでのローカルLLMデプロイメントのためにこれらのモデルを選択するユーザーに貴重な洞察を提供します。
重要ポイント
参照
“ベンチマークの結果から、一般的な使用にはminimax-m2.1の方が良いと思います。プロンプト処理速度は約2.5倍、トークン生成速度は約2倍です。”