MMLU-Pro: 更强大的多任务语言理解评估基准

Posted on 十月 15, 2025

MMLU-Pro：当大模型在原版MMLU上刷到90分时，你需要一张更难的试卷核心观点：10选项设计不是简单的”加大难度”，而是精准打击了大模型的幸运猜测和浅层模式识别，强制模型展示真实的推理能力。 GPT-4在原版MMLU上88%，Claude-3 Opus 86%，Gemini-Pro 84%——当顶尖模型都在85%以上徘徊时，这个基准已经失去了区分度。MMLU-Pro用10选项和推理导向的问题设计，让这些模型的分数直接腰斩到70%左右。这不是为了难为模型，而是为了看清模型真正会什么、不会什么。 4选项到10选项：不只是数量变化原版MMLU的4选项意味着什么？即使完全瞎猜，期望得分25%。一个模型如果在某个领域只有模糊印象，通过排除法+合理推测，很容易把准确率提升到40-50%。这在实际应用中是个严重问题：你以为模型”基本掌握”了某个知识领域，实际上它只是”略懂皮毛”。 MML...

阅读全文

Humanity's Last Exam: AI能力的终极衡量标准

Posted on 一月 31, 2025

核心观点：当MMLU被刷到90%以上、几乎失去区分度时，我们需要一个新的天花板。Humanity’s Last Exam用全球1000名专家贡献的2500道难题，重新为AI能力划定了一条远未被触及的上限。为什么需要”最后的考试”MMLU长期以来是衡量LLM知识广度的标准基准。但到2024年，顶尖模型已经在MMLU上突破90%准确率。当所有选手都能考90分以上时，这个考试就失去了区分度。同样的问题正在蔓延到其他基准：ARC、HellaSwag、WinoGrande……这些曾经具有挑战性的测试，现在对于最强的模型来说已经不构成障碍。 Humanity’s Last Exam（HLE）的设计目标很明确：创建一个当前AI无法通过的测试。不是为了打击信心，而是为了在能力快速增长的时期提供一个可靠的测量工具。 2500道”AI回答不了”的问题HLE的构建过程本身就很有说服力：全球招募专家...

阅读全文