搭建专属ChatGPT:用64GB内存和Podman构建强大的纯CPU大语言模型服务器infrastructure#llm📝 Blog|分析: 2026年4月26日 03:09•发布: 2026年4月26日 03:07•1分で読める•Zenn LLM分析对于那些希望在不花费巨资购买昂贵GPU的情况下自行托管大语言模型 (LLM) 的人来说,这是一篇极具实用性和启发性的指南。作者通过在64GB内存的设置上成功运行两个庞大的30B级模型,出色地展示了基于CPU的推理的巨大潜力。这是一次非常棒的开源基础设施深度探索,使工程师能够构建自己本地化、注重隐私的AI环境。关键要点•仅使用i9 CPU和64GB内存,就实现了同时运行两个庞大的MoE模型(Qwen3.6 35B-A3B 和 GLM-4.7-Flash)这一令人惊叹的壮举。•最终的架构优雅地将Caddy和Ollama的systemd直接管理与通过rootful Podman安全运行的Open WebUI结合在一起。•展示了高度优化的内存占用,通过仔细计算操作系统、模型和KV缓存的需求,在不依赖交换空间的情况下,在可用的64GB中达到了约54-56GB的使用量。•引用 / 来源查看原文"我搭建了一台仅靠CPU运行的大语言模型 (LLM) 服务器。由于预算限制,GPU是下一阶段的计划,所以目前首先是验证阶段,看看仅靠CPU的推理能做到什么程度。硬件使用的是 i9-13900 + 64GB RAM。本次的最终目标是让 Qwen3.6 35B-A3B 和 GLM-4.7-Flash 这两个模型常驻,并可以通过 Open WebUI 从 LAN 访问。"ZZenn LLM2026年4月26日 03:07* 根据版权法第32条进行合法引用。较旧Claude Code v2.1.85-86 Brings Powerful Hooks and Performance Upgrades较新Decoding AI Report Cards: A Complete Guide to 21 LLM Benchmarks相关分析infrastructure掌握AI智能体编排:精细业务设计如何解锁自主化运营2026年4月26日 03:10infrastructure掌握OpenAPI 3.1设计:为AI智能体打造极致的日本地址标准化API2026年4月26日 00:39infrastructure与AI设计银行级API:防止双重转账的“逻辑堡垒”流程2026年4月25日 21:46来源: Zenn LLM