Qwen3.6-35B 在 AMD ROCm 7.2.1 上展现 blazing-fast 的多模态推理能力

infrastructure#llm📝 Blog|分析: 2026年4月18日 08:00
发布: 2026年4月18日 07:54
1分で読める
Qiita AI

分析

这是一次极好的展示,证明了像 Mamba 与专家混合(MoE)结合的开源混合架构能够提供令人难以置信的效率。通过在 34.66B 参数中仅激活 3B 参数,该模型在消费级硬件上实现了高度响应的文本生成速度。多模态功能与 AMD ROCm 的成功整合,进一步凸显了替代 GPU 生态系统在大语言模型 (LLM) 领域日益增强的竞争力与可及性。
引用 / 来源
查看原文
"由于 MoE 的激活参数仅相当于 3B,文本生成(tg)速度相对于模型规模来说非常快。"
Q
Qiita AI2026年4月18日 07:54
* 根据版权法第32条进行合法引用。