Qwen3.6-35B 在 AMD ROCm 7.2.1 上展现 blazing-fast 的多模态推理能力infrastructure#llm📝 Blog|分析: 2026年4月18日 08:00•发布: 2026年4月18日 07:54•1分で読める•Qiita AI分析这是一次极好的展示,证明了像 Mamba 与专家混合(MoE)结合的开源混合架构能够提供令人难以置信的效率。通过在 34.66B 参数中仅激活 3B 参数,该模型在消费级硬件上实现了高度响应的文本生成速度。多模态功能与 AMD ROCm 的成功整合,进一步凸显了替代 GPU 生态系统在大语言模型 (LLM) 领域日益增强的竞争力与可及性。关键要点•Qwen3.6-35B 模型巧妙地利用了 Mamba/MoE 混合架构,在推理期间仅激活 3B 参数,确保了极速的文本生成。•多模态功能测试取得成功,在不发生内存溢出(OOM)的情况下,准确识别了矩阵乘法内存布局等复杂的视觉输入。•基准测试在 AMD Radeon 显卡上展现了惊人的批处理效率,随着批量大小的增加,提示处理速度翻倍。引用 / 来源查看原文"由于 MoE 的激活参数仅相当于 3B,文本生成(tg)速度相对于模型规模来说非常快。"QQiita AI2026年4月18日 07:54* 根据版权法第32条进行合法引用。较旧Claude Code's Monitor Tool: A Complete Guide to Real-Time Background Process Management较新The Surprising Evolution of AI: A Journey of Teaching and Co-Creation in the Workplace相关分析infrastructureTDSQL-C 核心技术突破:解析 AI 加持下的 Serverless 智能化弹性四层架构2026年4月20日 07:44infrastructure分布式缓存数据库的下一站:开源驱动、架构进化与智能体工程化实践2026年4月20日 02:22infrastructure超越RAG:用Spring Boot构建具备上下文感知能力的企业级AI系统2026年4月20日 02:11来源: Qiita AI