実世界のコーディングタスクにおけるClaude Opus 4.5 vs. GPT-5.2 Codex vs. Gemini 3 Pro
分析
この記事は、3つの大規模言語モデル(LLM)であるClaude Opus 4.5、GPT-5.2 Codex、Gemini 3 Proを、Next.jsプロジェクト内の実世界のコーディングタスクで比較しています。著者は、ベンチマークスコアではなく、実際の機能実装に焦点を当て、機能を実装する能力、所要時間、トークン使用量、コストに基づいてモデルを評価しています。Gemini 3 Proが最も優れており、次にClaude Opus 4.5、GPT-5.2 Codexが最も信頼性が低いという結果でした。評価は、実際のプロジェクトを使用し、各モデルの3回の実行のうち最良のものを考慮して、ランダムな変動の影響を軽減しています。
重要ポイント
参照
“Gemini 3 Proが最も優れていました。フォールバックとキャッシュを効果的に設定し、キャッシュからの繰り返し生成は数ミリ秒で返されました。実行コストは0.45ドル、7分14秒かかり、約746Kの入力(キャッシュ読み取りを含む)+約11Kの出力を使用しました。”