Gemini 3 Flash が新しい「Misguided Attention」ベンチマークでトップ、GPT-5.2 と Opus 4.5 を上回る
分析
この記事は、「Misguided Attention」ベンチマークの結果について議論しており、複雑なSTEMタスクではなく、指示に従い、単純な論理的推論を実行する大規模言語モデルの能力をテストしています。 Gemini 3 Flash が最高のスコアを達成し、GPT-5.2 や Opus 4.5 などの他のモデルを上回りました。このベンチマークは、パターンマッチングと文字通りの推論の間のギャップを浮き彫りにし、現在のモデルが微妙な理解に苦労し、過剰適合しやすいことを示唆しています。この記事は、Gemini 3 Flash の成功が優れた推論を示しているのか、それとも単に過剰適合が少ないのか疑問を呈しています。
重要ポイント
参照
“ベンチマークは、おなじみのなぞなぞを微調整します。一例として、「5人の死者」に言及するトロリー問題があり、モデルがその詳細に気付くか、暗記したテンプレートを盲目的に適用するかを確認します。”