Llama.cpp 在 M2 Max 上实现出色性能：每秒 40 tokens，CPU 占用率为 0%

Infrastructure #LLM 👥 Community|分析: 2026年1月10日 16:08•

发布: 2023年6月4日 17:24

•

1分で読める

分析

这篇文章强调了 Llama.cpp 的显著性能，展示了它在利用 GPU 资源方面的效率。声称每秒 40 tokens 且 CPU 占用率为 0% 表明了高效的卸载和优化。

引用 / 来源

"Llama.cpp can do 40 tok/s on M2 Max, 0% CPU usage, using all 38 GPU cores"

Hacker News2023年6月4日 17:24

* 根据版权法第32条进行合法引用。

Open-Source Platform for LLM Fine-Tuning and RLHF Data Collection

Accelerating Neural Networks: CUDA/HIP Code Generation