新しいInsanityBenchが生成AIの創造性に挑戦
分析
InsanityBenchは、生成AIの限界を押し広げるために設計された、魅力的な新しいベンチマークです。科学的ブレークスルーでしばしば必要とされる創造性の重要な要素に焦点を当てており、大規模言語モデル (LLM) の能力を評価するための貴重なツールとなります。各タスクが異なるというベンチマークのユニークな構造は、堅牢な評価を提供することを約束します。
重要ポイント
引用・出典
原文を見る"InsanityBenchは、私たちが深く関心を持っているもの(科学でしばしば必要とされる「非常識な」創造性の飛躍)をカプセル化したベンチマークであり、ほとんどゲーム化できない(すべてのタスクが互いに完全に異なるため)、まだ飽和状態には程遠い(最高のモデルは15%をスコア)とされています。"