真的有人实际使用过GLM 4.7吗?(不仅仅是基准测试)
分析
这篇来自r/LocalLLaMA的Reddit帖子突出了AI社区中一个普遍存在的问题:基准测试性能与实际可用性之间的脱节。作者质疑围绕GLM 4.7的炒作,特别是其在编码和数学方面的所谓优势,并寻求已将其集成到工作流程中的用户的反馈。对复杂Web开发任务(如TypeScript和React重构)的关注,为评估模型的能力提供了实际背景。对诚实意见(而非基准分数)的请求,强调了需要用户驱动的评估来补充定量指标。这反映了人们越来越意识到仅依靠基准来衡量AI模型的真正价值的局限性。
引用
“我看到所有这些图表声称GLM 4.7在编码和数学方面正式成为“Sonnet 4.5和GPT-5.2的杀手”。”
较旧
llama.cpp Updates: The --fit Flag and CUDA Cumsum Optimization
较新
Titanium Morning News: Regulations on Information Disclosure of Asset Management Products by Banking and Insurance Institutions Released, Effective September 1st Next Year; Guangzhou's First Special Support Policy for the Game E-sports Industry Released; Samsung Electronics Plans to Launch Application Processors with Self-Developed GPUs as Early as 2027