実世界のコーディングタスクにおけるClaude Opus 4.5 vs. GPT-5.2 Codex vs. Gemini 3 Pro

Research#llm📝 Blog|分析: 2026年1月3日 07:04
公開: 2026年1月2日 08:35
1分で読める
r/ClaudeAI

分析

この記事は、3つの大規模言語モデル(LLM)であるClaude Opus 4.5、GPT-5.2 Codex、Gemini 3 Proを、Next.jsプロジェクト内の実世界のコーディングタスクで比較しています。著者は、ベンチマークスコアではなく、実際の機能実装に焦点を当て、機能を実装する能力、所要時間、トークン使用量、コストに基づいてモデルを評価しています。Gemini 3 Proが最も優れており、次にClaude Opus 4.5、GPT-5.2 Codexが最も信頼性が低いという結果でした。評価は、実際のプロジェクトを使用し、各モデルの3回の実行のうち最良のものを考慮して、ランダムな変動の影響を軽減しています。
引用・出典
原文を見る
"Gemini 3 Pro performed the best. It set up the fallback and cache effectively, with repeated generations returning in milliseconds from the cache. The run cost $0.45, took 7 minutes and 14 seconds, and used about 746K input (including cache reads) + ~11K output."
R
r/ClaudeAI2026年1月2日 08:35
* 著作権法第32条に基づく適法な引用です。