核心观点:当MMLU被刷到90%以上、几乎失去区分度时,我们需要一个新的天花板。Humanity’s Last Exam用全球1000名专家贡献的2500道难题,重新为AI能力划定了一条远未被触及的上限。
为什么需要”最后的考试”MMLU长期以来是衡量LLM知识广度的标准基准。但到2024年,顶尖模型已经在MMLU上突破90%准确率。当所有选手都能考90分以上时,这个考试就失去了区分度。
同样的问题正在蔓延到其他基准:ARC、HellaSwag、WinoGrande……这些曾经具有挑战性的测试,现在对于最强的模型来说已经不构成障碍。
Humanity’s Last Exam(HLE)的设计目标很明确:创建一个当前AI无法通过的测试。不是为了打击信心,而是为了在能力快速增长的时期提供一个可靠的测量工具。
2500道”AI回答不了”的问题HLE的构建过程本身就很有说服力:
全球招募专家...