Research#llm📝 Blog分析: 2026年1月3日 07:04

実世界のコーディングタスクにおけるClaude Opus 4.5 vs. GPT-5.2 Codex vs. Gemini 3 Pro

公開:2026年1月2日 08:35
1分で読める
r/ClaudeAI

分析

この記事は、3つの大規模言語モデル(LLM)であるClaude Opus 4.5、GPT-5.2 Codex、Gemini 3 Proを、Next.jsプロジェクト内の実世界のコーディングタスクで比較しています。著者は、ベンチマークスコアではなく、実際の機能実装に焦点を当て、機能を実装する能力、所要時間、トークン使用量、コストに基づいてモデルを評価しています。Gemini 3 Proが最も優れており、次にClaude Opus 4.5、GPT-5.2 Codexが最も信頼性が低いという結果でした。評価は、実際のプロジェクトを使用し、各モデルの3回の実行のうち最良のものを考慮して、ランダムな変動の影響を軽減しています。

参照

Gemini 3 Proが最も優れていました。フォールバックとキャッシュを効果的に設定し、キャッシュからの繰り返し生成は数ミリ秒で返されました。実行コストは0.45ドル、7分14秒かかり、約746Kの入力(キャッシュ読み取りを含む)+約11Kの出力を使用しました。