使用 Bf16 KV 缓存提升 Qwen 3.5 性能:性能大跃进!
分析
生成式人工智能爱好者们的好消息! Qwen 3.5 大语言模型 (LLM) 在使用 bf16 KV 缓存时表现出显著提升的性能。这是一项关键优化,确保在本地设置上进行最佳推理,并释放这个强大模型的全部潜力。
引用 / 来源
查看原文"如果您在 llama.cpp 等引擎上本地运行 Qwen 3.5 35B A3B,您需要手动将您的 KV 缓存设置为 bf16 (-ctk bf16 -ctv bf16),而不是默认的 fp16。"