実世界のコーディングタスクにおけるClaude Opus 4.5 vs. GPT-5.2 Codex vs. Gemini 3 Pro

Research #llm 📝 Blog|分析: 2026年1月3日 07:04•

公開: 2026年1月2日 08:35

•

1分で読める

分析

この記事は、3つの大規模言語モデル（LLM）であるClaude Opus 4.5、GPT-5.2 Codex、Gemini 3 Proを、Next.jsプロジェクト内の実世界のコーディングタスクで比較しています。著者は、ベンチマークスコアではなく、実際の機能実装に焦点を当て、機能を実装する能力、所要時間、トークン使用量、コストに基づいてモデルを評価しています。Gemini 3 Proが最も優れており、次にClaude Opus 4.5、GPT-5.2 Codexが最も信頼性が低いという結果でした。評価は、実際のプロジェクトを使用し、各モデルの3回の実行のうち最良のものを考慮して、ランダムな変動の影響を軽減しています。

重要ポイント

引用・出典

原文を見る

"Gemini 3 Pro performed the best. It set up the fallback and cache effectively, with repeated generations returning in milliseconds from the cache. The run cost $0.45, took 7 minutes and 14 seconds, and used about 746K input (including cache reads) + ~11K output."

r/ClaudeAI2026年1月2日 08:35

* 著作権法第32条に基づく適法な引用です。

古い記事

Claude Code + AWS CLI Solves DevOps Challenges

新しい記事

Claude Pro Search Functionality Issues Reported

実世界のコーディングタスクにおけるClaude Opus 4.5 vs. GPT-5.2 Codex vs. Gemini 3 Pro

分析

重要ポイント

関連分析

人間によるAI検出

深層学習の実装に焦点を当てた書籍

Geminiのパーソナライズ

📬 AIニュースを受信

カテゴリで探す

トレンドトピック

📬 AIニュースを受信

カテゴリで探す

トレンドトピック