Claude Opus 4.5 vs. GPT-5.2 Codex vs. Gemini 3 Pro 在真实世界编码任务中的表现

Research#llm📝 Blog|分析: 2026年1月3日 07:04
发布: 2026年1月2日 08:35
1分で読める
r/ClaudeAI

分析

这篇文章比较了三个大型语言模型(LLM)—— Claude Opus 4.5、GPT-5.2 Codex 和 Gemini 3 Pro —— 在 Next.js 项目中的实际编码任务上的表现。作者侧重于实际的功能实现,而不是基准测试分数,根据模型实现功能的能力、所用时间、token 使用量和成本进行评估。Gemini 3 Pro 表现最佳,其次是 Claude Opus 4.5,GPT-5.2 Codex 最不可靠。评估使用了真实世界的项目,并考虑了每个模型的三个最佳运行结果,以减轻随机变化的影响。
引用 / 来源
查看原文
"Gemini 3 Pro performed the best. It set up the fallback and cache effectively, with repeated generations returning in milliseconds from the cache. The run cost $0.45, took 7 minutes and 14 seconds, and used about 746K input (including cache reads) + ~11K output."
R
r/ClaudeAI2026年1月2日 08:35
* 根据版权法第32条进行合法引用。