MMLU-Pro:当大模型在原版MMLU上刷到90分时,你需要一张更难的试卷
核心观点:10选项设计不是简单的”加大难度”,而是精准打击了大模型的幸运猜测和浅层模式识别,强制模型展示真实的推理能力。
GPT-4在原版MMLU上88%,Claude-3 Opus 86%,Gemini-Pro 84%——当顶尖模型都在85%以上徘徊时,这个基准已经失去了区分度。MMLU-Pro用10选项和推理导向的问题设计,让这些模型的分数直接腰斩到70%左右。
这不是为了难为模型,而是为了看清模型真正会什么、不会什么。
4选项到10选项:不只是数量变化
原版MMLU的4选项意味着什么?即使完全瞎猜,期望得分25%。一个模型如果在某个领域只有模糊印象,通过排除法+合理推测,很容易把准确率提升到40-50%。
这在实际应用中是个严重问题:你以为模型”基本掌握”了某个知识领域,实际上它只是”略懂皮毛”。
MMLU-Pro的10选项设计把随机猜测成功率降到10%。更关键的是,它强制模型必须真正理解问题才能选对答案,而不是依靠选项之间的对比和排除。
实验数据验证了这一点:
- 直接回答:性能基线
- 加入思维链推理:性能提升20%
20%的CoT提升说明什么?说明这些题目不是靠记忆就能答对的,而是需要推理过程。 这才是评估基准应该测试的能力。
与原版MMLU的代际差异
| 维度 | 原版MMLU | MMLU-Pro | 为什么重要 |
|---|---|---|---|
| 选项数量 | 4个 | 10个 | 降低猜测收益,提高区分度 |
| 随机基线 | 25% | 10% | 更真实地反映模型能力 |
| 问题来源 | 标准化考试 | MMLU + STEM网站 + 学术论文 | 更强的推理导向 |
| 顶尖模型性能 | 85-90% | 70-75% | 仍有充分的改进空间 |
| CoT提升幅度 | 5-10% | 15-20% | 证明测试的是推理而非记忆 |
最关键的差异在于问题筛选标准:MMLU-Pro有意识地减少了纯记忆类问题,增加了需要多步推理的题目。这意味着在这个基准上刷分,必须提升模型的底层推理能力,而不是增加训练数据量。
它暴露了什么
看看顶尖模型在MMLU-Pro上的性能下降:
| 模型 | 原版MMLU | MMLU-Pro | 性能落差 |
|---|---|---|---|
| GPT-4 | ~88% | ~72% | -16% |
| Claude-3-Opus | ~86% | ~70% | -16% |
| Gemini-Pro | ~84% | ~68% | -16% |
| Llama-3-70B | ~79% | ~56% | -23% |
闭源模型的性能落差在16%左右,开源模型在23%左右——这个差距说明什么?
说明开源模型在推理能力上与闭源模型的真实差距,比原版MMLU显示的要大。原版MMLU上,Llama-3-70B(79%)与GPT-4(88%)只差9个百分点,看起来”差距不大”。但MMLU-Pro撕开了表象:真实差距是16个百分点。
这种区分度对于模型选型至关重要。如果你的应用需要强推理能力(比如复杂的数据分析、多步骤问题解决),那么原版MMLU可能会误导你选择”性价比高”的开源模型,而实际部署后发现推理能力不足。
什么时候必须用MMLU-Pro
必须用MMLU-Pro的场景:
- 模型选型决策:尤其是需要强推理能力的应用
- 新模型发布评估:证明你的模型真的在推理上有突破
- 算法改进验证:区分”数据堆砌”和”能力提升”
- 学科专项评估:13个学科的细分性能分析
仍然需要原版MMLU的场景:
- 历史对比:与早期研究对比时需要统一基准
- 快速筛选:初步评估模型的知识覆盖面
- 多语言评估:MMLU有更多语言版本
最佳实践:同时报告两个基准的分数。原版MMLU看知识广度,MMLU-Pro看推理深度。
它意味着什么
MMLU-Pro的出现标志着评估基准进入”反刷分”阶段。
过去的评估基准有个天然缺陷:当模型在基准上达到一定分数后,继续提升的最快方法不是改进能力,而是针对基准优化。这导致分数和真实能力脱钩。
MMLU-Pro的10选项设计、推理导向的问题筛选,让”刷分”变得困难——你必须真正提升推理能力才能提分。这就像从”开卷考试”变成”闭卷考试+禁止死记硬背”。
更重要的是,它给未来的评估基准设计提供了思路:
- 提高随机基线的难度(10选项、甚至开放式问答)
- 筛选推理导向的问题(CoT提升幅度是重要指标)
- 留出充分的改进空间(顶尖模型70-75%,而非90%+)
- 多维度评估(13个学科的专项分析)
当GPT-5、Claude-4出现时,我们需要的不是”更多题目”,而是”更难的题目”——MMLU-Pro证明了这条路是可行的。
使用建议
- 必须启用CoT推理:直接回答会严重低估模型能力,CoT推理可提升15-20%
- 关注学科专项性能:不要只看总分,数学、物理、法律等学科的专项分数更有参考价值
- 与原版MMLU对比:性能落差越小,说明推理能力越强
- 多次采样取平均:由于问题难度高,单次测试波动较大
- 注意prompt工程:不同的提示格式可能导致5-10%的性能差异
MMLU-Pro不是要替代原版MMLU,而是补齐了推理能力评估的短板。两者结合使用,才能全面评估模型的知识和推理能力。
数据集链接:https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro
关键数据:
- 规模:12,032道题目
- 学科领域:13个(数学、物理、化学、法律、工程、经济学等)
- 选项数量:10个(原版4个)
- 随机猜测基线:10%(原版25%)
- 许可证:MIT(可自由使用)
推荐用途:大模型综合能力评估、推理能力测试、模型选型基准、学科专项分析
评估模型时必须启用思维链推理,否则会严重低估模型能力。