実世界のコーディングタスクにおけるClaude Opus 4.5 vs. GPT-5.2 Codex vs. Gemini 3 Pro
分析
この記事は、3つの大規模言語モデル(LLM)であるClaude Opus 4.5、GPT-5.2 Codex、Gemini 3 Proを、Next.jsプロジェクト内の実世界のコーディングタスクで比較しています。著者は、ベンチマークスコアではなく、実際の機能実装に焦点を当て、機能を実装する能力、所要時間、トークン使用量、コストに基づいてモデルを評価しています。Gemini 3 Proが最も優れており、次にClaude Opus 4.5、GPT-5.2 Codexが最も信頼性が低いという結果でした。評価は、実際のプロジェクトを使用し、各モデルの3回の実行のうち最良のものを考慮して、ランダムな変動の影響を軽減しています。
重要ポイント
引用・出典
原文を見る"Gemini 3 Pro performed the best. It set up the fallback and cache effectively, with repeated generations returning in milliseconds from the cache. The run cost $0.45, took 7 minutes and 14 seconds, and used about 746K input (including cache reads) + ~11K output."