革命性人工智能推理运行时承诺闪电般的LLM激活infrastructure#llm📝 Blog|分析: 2026年1月26日 18:32•发布: 2026年1月26日 18:18•1分で読める•r/mlops分析这是一个令人兴奋的消息!一个新的推理运行时承诺在H100s上以略超过一秒的时间冷启动70B [大语言模型 (LLM)] 模型。在调用之间缩放到零的能力对于突发工作负载来说是一个改变游戏规则的因素,为 [智能体] 应用开辟了新的可能性。要点•大型 [大语言模型 (LLM)] 模型的快速冷启动时间。•旨在处理突发性和峰值流量。•提供托管和访问H100节点。引用 / 来源查看原文"We’ve built an inference runtime that can cold start ~70B models in ~1–1.5s on H100s and fully scale to zero between calls."Rr/mlops2026年1月26日 18:18* 根据版权法第32条进行合法引用。较旧Unleash Your Creativity: Image Generation Now Free in ChatGPT!较新AI: Unleashing the Power of Unexamined Narrative相关分析infrastructurePinterest 用 AI 智能体革新企业运营2026年4月2日 07:30infrastructureAI助力AWS构建:简化EC2创建与网络验证2026年4月2日 06:30infrastructureOllama 支持 MLX,加速 Mac 上的生成式人工智能推理2026年4月2日 05:00来源: r/mlops