全新InsanityBench挑战生成式人工智能的创造力
分析
InsanityBench是一个引人入胜的新基准,旨在突破生成式人工智能的界限。它侧重于科学突破中经常需要的创造力的关键要素,使其成为评估大语言模型 (LLM) 能力的宝贵工具。该基准的独特结构,每个任务都不同,有望提供一个强大的评估。
引用 / 来源
查看原文"InsanityBench应该是一个基准,它封装了我们深切关心的东西(科学中经常需要的“疯狂”的创造力飞跃),几乎无法被游戏化(因为每个任务都与其他任务完全不同),而且尚未饱和(最佳模型得分为15%)。"