MMLU-Pro: 更强大的多任务语言理解评估基准

MMLU-Pro:当大模型在原版MMLU上刷到90分时,你需要一张更难的试卷

核心观点:10选项设计不是简单的”加大难度”,而是精准打击了大模型的幸运猜测和浅层模式识别,强制模型展示真实的推理能力。

GPT-4在原版MMLU上88%,Claude-3 Opus 86%,Gemini-Pro 84%——当顶尖模型都在85%以上徘徊时,这个基准已经失去了区分度。MMLU-Pro用10选项和推理导向的问题设计,让这些模型的分数直接腰斩到70%左右。

这不是为了难为模型,而是为了看清模型真正会什么、不会什么。

4选项到10选项:不只是数量变化

原版MMLU的4选项意味着什么?即使完全瞎猜,期望得分25%。一个模型如果在某个领域只有模糊印象,通过排除法+合理推测,很容易把准确率提升到40-50%。

这在实际应用中是个严重问题:你以为模型”基本掌握”了某个知识领域,实际上它只是”略懂皮毛”。

MMLU-Pro的10选项设计把随机猜测成功率降到10%。更关键的是,它强制模型必须真正理解问题才能选对答案,而不是依靠选项之间的对比和排除。

实验数据验证了这一点:

  • 直接回答:性能基线
  • 加入思维链推理:性能提升20%

20%的CoT提升说明什么?说明这些题目不是靠记忆就能答对的,而是需要推理过程。 这才是评估基准应该测试的能力。

与原版MMLU的代际差异

维度 原版MMLU MMLU-Pro 为什么重要
选项数量 4个 10个 降低猜测收益,提高区分度
随机基线 25% 10% 更真实地反映模型能力
问题来源 标准化考试 MMLU + STEM网站 + 学术论文 更强的推理导向
顶尖模型性能 85-90% 70-75% 仍有充分的改进空间
CoT提升幅度 5-10% 15-20% 证明测试的是推理而非记忆

最关键的差异在于问题筛选标准:MMLU-Pro有意识地减少了纯记忆类问题,增加了需要多步推理的题目。这意味着在这个基准上刷分,必须提升模型的底层推理能力,而不是增加训练数据量。

它暴露了什么

看看顶尖模型在MMLU-Pro上的性能下降:

模型 原版MMLU MMLU-Pro 性能落差
GPT-4 ~88% ~72% -16%
Claude-3-Opus ~86% ~70% -16%
Gemini-Pro ~84% ~68% -16%
Llama-3-70B ~79% ~56% -23%

闭源模型的性能落差在16%左右,开源模型在23%左右——这个差距说明什么?

说明开源模型在推理能力上与闭源模型的真实差距,比原版MMLU显示的要大。原版MMLU上,Llama-3-70B(79%)与GPT-4(88%)只差9个百分点,看起来”差距不大”。但MMLU-Pro撕开了表象:真实差距是16个百分点。

这种区分度对于模型选型至关重要。如果你的应用需要强推理能力(比如复杂的数据分析、多步骤问题解决),那么原版MMLU可能会误导你选择”性价比高”的开源模型,而实际部署后发现推理能力不足。

什么时候必须用MMLU-Pro

必须用MMLU-Pro的场景

  1. 模型选型决策:尤其是需要强推理能力的应用
  2. 新模型发布评估:证明你的模型真的在推理上有突破
  3. 算法改进验证:区分”数据堆砌”和”能力提升”
  4. 学科专项评估:13个学科的细分性能分析

仍然需要原版MMLU的场景

  1. 历史对比:与早期研究对比时需要统一基准
  2. 快速筛选:初步评估模型的知识覆盖面
  3. 多语言评估:MMLU有更多语言版本

最佳实践:同时报告两个基准的分数。原版MMLU看知识广度,MMLU-Pro看推理深度。

它意味着什么

MMLU-Pro的出现标志着评估基准进入”反刷分”阶段。

过去的评估基准有个天然缺陷:当模型在基准上达到一定分数后,继续提升的最快方法不是改进能力,而是针对基准优化。这导致分数和真实能力脱钩。

MMLU-Pro的10选项设计、推理导向的问题筛选,让”刷分”变得困难——你必须真正提升推理能力才能提分。这就像从”开卷考试”变成”闭卷考试+禁止死记硬背”。

更重要的是,它给未来的评估基准设计提供了思路:

  1. 提高随机基线的难度(10选项、甚至开放式问答)
  2. 筛选推理导向的问题(CoT提升幅度是重要指标)
  3. 留出充分的改进空间(顶尖模型70-75%,而非90%+)
  4. 多维度评估(13个学科的专项分析)

当GPT-5、Claude-4出现时,我们需要的不是”更多题目”,而是”更难的题目”——MMLU-Pro证明了这条路是可行的。

使用建议

  1. 必须启用CoT推理:直接回答会严重低估模型能力,CoT推理可提升15-20%
  2. 关注学科专项性能:不要只看总分,数学、物理、法律等学科的专项分数更有参考价值
  3. 与原版MMLU对比:性能落差越小,说明推理能力越强
  4. 多次采样取平均:由于问题难度高,单次测试波动较大
  5. 注意prompt工程:不同的提示格式可能导致5-10%的性能差异

MMLU-Pro不是要替代原版MMLU,而是补齐了推理能力评估的短板。两者结合使用,才能全面评估模型的知识和推理能力。


数据集链接https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro

关键数据

  • 规模:12,032道题目
  • 学科领域:13个(数学、物理、化学、法律、工程、经济学等)
  • 选项数量:10个(原版4个)
  • 随机猜测基线:10%(原版25%)
  • 许可证:MIT(可自由使用)

推荐用途:大模型综合能力评估、推理能力测试、模型选型基准、学科专项分析

评估模型时必须启用思维链推理,否则会严重低估模型能力。

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero