新しいInsanityBenchが生成AIの創造性に挑戦

research#llm📝 Blog|分析: 2026年2月24日 15:02
公開: 2026年2月24日 09:43
1分で読める
r/singularity

分析

InsanityBenchは、生成AIの限界を押し広げるために設計された、魅力的な新しいベンチマークです。科学的ブレークスルーでしばしば必要とされる創造性の重要な要素に焦点を当てており、大規模言語モデル (LLM) の能力を評価するための貴重なツールとなります。各タスクが異なるというベンチマークのユニークな構造は、堅牢な評価を提供することを約束します。
引用・出典
原文を見る
"InsanityBenchは、私たちが深く関心を持っているもの(科学でしばしば必要とされる「非常識な」創造性の飛躍)をカプセル化したベンチマークであり、ほとんどゲーム化できない(すべてのタスクが互いに完全に異なるため)、まだ飽和状態には程遠い(最高のモデルは15%をスコア)とされています。"
R
r/singularity2026年2月24日 09:43
* 著作権法第32条に基づく適法な引用です。