Claude Opus 4.5 vs. GPT-5.2 Codex vs. Gemini 3 Pro 在真实世界编码任务中的表现

Research #llm 📝 Blog|分析: 2026年1月3日 07:04•

发布: 2026年1月2日 08:35

•

1分で読める

分析

这篇文章比较了三个大型语言模型（LLM）—— Claude Opus 4.5、GPT-5.2 Codex 和 Gemini 3 Pro —— 在 Next.js 项目中的实际编码任务上的表现。作者侧重于实际的功能实现，而不是基准测试分数，根据模型实现功能的能力、所用时间、token 使用量和成本进行评估。Gemini 3 Pro 表现最佳，其次是 Claude Opus 4.5，GPT-5.2 Codex 最不可靠。评估使用了真实世界的项目，并考虑了每个模型的三个最佳运行结果，以减轻随机变化的影响。

要点

引用 / 来源

查看原文

"Gemini 3 Pro performed the best. It set up the fallback and cache effectively, with repeated generations returning in milliseconds from the cache. The run cost $0.45, took 7 minutes and 14 seconds, and used about 746K input (including cache reads) + ~11K output."

r/ClaudeAI2026年1月2日 08:35

* 根据版权法第32条进行合法引用。

较旧

Claude Code + AWS CLI Solves DevOps Challenges

较新

Claude Pro Search Functionality Issues Reported

Claude Opus 4.5 vs. GPT-5.2 Codex vs. Gemini 3 Pro 在真实世界编码任务中的表现

分析

要点

相关分析

人类AI检测

侧重于实现的深度学习书籍

个性化 Gemini

📬 获取AI新闻

按类别浏览

热门话题

📬 获取AI新闻

按类别浏览

热门话题