Gemini 3 Flash が新しい「Misguided Attention」ベンチマークでトップ、GPT-5.2 と Opus 4.5 を上回る
分析
この記事は、「Misguided Attention」ベンチマークの結果について議論しており、複雑なSTEMタスクではなく、指示に従い、単純な論理的推論を実行する大規模言語モデルの能力をテストしています。 Gemini 3 Flash が最高のスコアを達成し、GPT-5.2 や Opus 4.5 などの他のモデルを上回りました。このベンチマークは、パターンマッチングと文字通りの推論の間のギャップを浮き彫りにし、現在のモデルが微妙な理解に苦労し、過剰適合しやすいことを示唆しています。この記事は、Gemini 3 Flash の成功が優れた推論を示しているのか、それとも単に過剰適合が少ないのか疑問を呈しています。
重要ポイント
引用・出典
原文を見る"The benchmark tweaks familiar riddles. One example is a trolley problem that mentions “five dead people” to see if the model notices the detail or blindly applies a memorized template."