在多CPU和系统RAM上自托管LLM
分析
这篇Reddit帖子讨论了在具有多个CPU和大量系统RAM的服务器上自托管大型语言模型(LLM)的可行性。作者正在考虑使用带有Xeon 2690 v3处理器的双路Supermicro主板和大量的2133 MHz RAM。主要问题围绕着256GB的RAM是否足以以有意义的速度运行大型开源模型。帖子还寻求对预期性能和运行特定模型(如Qwen3:235b)的潜力的见解。讨论突出了人们对本地运行LLM的日益增长的兴趣以及所涉及的硬件考虑因素。
引用 / 来源
查看原文"I was thinking about buying a bunch more sys ram to it and self host larger LLMs, maybe in the future I could run some good models on it."