Claude Opus 4.5 vs. GPT-5.2 Codex vs. Gemini 3 Pro 在真实世界编码任务中的表现
分析
这篇文章比较了三个大型语言模型(LLM)—— Claude Opus 4.5、GPT-5.2 Codex 和 Gemini 3 Pro —— 在 Next.js 项目中的实际编码任务上的表现。作者侧重于实际的功能实现,而不是基准测试分数,根据模型实现功能的能力、所用时间、token 使用量和成本进行评估。Gemini 3 Pro 表现最佳,其次是 Claude Opus 4.5,GPT-5.2 Codex 最不可靠。评估使用了真实世界的项目,并考虑了每个模型的三个最佳运行结果,以减轻随机变化的影响。
要点
引用
“Gemini 3 Pro 表现最佳。它有效地设置了回退和缓存,重复生成在几毫秒内从缓存返回。运行成本为 0.45 美元,耗时 7 分 14 秒,使用了大约 746K 输入(包括缓存读取)+ 约 11K 输出。”