MMLU-Pro: 更强大的多任务语言理解评估基准

Posted on 十月 15, 2025

MMLU-Pro：当大模型在原版MMLU上刷到90分时，你需要一张更难的试卷

核心观点：10选项设计不是简单的”加大难度”，而是精准打击了大模型的幸运猜测和浅层模式识别，强制模型展示真实的推理能力。

GPT-4在原版MMLU上88%，Claude-3 Opus 86%，Gemini-Pro 84%——当顶尖模型都在85%以上徘徊时，这个基准已经失去了区分度。MMLU-Pro用10选项和推理导向的问题设计，让这些模型的分数直接腰斩到70%左右。

这不是为了难为模型，而是为了看清模型真正会什么、不会什么。

原版MMLU的4选项意味着什么？即使完全瞎猜，期望得分25%。一个模型如果在某个领域只有模糊印象，通过排除法+合理推测，很容易把准确率提升到40-50%。

这在实际应用中是个严重问题：你以为模型”基本掌握”了某个知识领域，实际上它只是”略懂皮毛”。

MMLU-Pro的10选项设计把随机猜测成功率降到10%。更关键的是，它强制模型必须真正理解问题才能选对答案，而不是依靠选项之间的对比和排除。

实验数据验证了这一点：

20%的CoT提升说明什么？说明这些题目不是靠记忆就能答对的，而是需要推理过程。 这才是评估基准应该测试的能力。

维度	原版MMLU	MMLU-Pro	为什么重要
选项数量	4个	10个	降低猜测收益，提高区分度
随机基线	25%	10%	更真实地反映模型能力
问题来源	标准化考试	MMLU + STEM网站 + 学术论文	更强的推理导向
顶尖模型性能	85-90%	70-75%	仍有充分的改进空间
CoT提升幅度	5-10%	15-20%	证明测试的是推理而非记忆

最关键的差异在于问题筛选标准：MMLU-Pro有意识地减少了纯记忆类问题，增加了需要多步推理的题目。这意味着在这个基准上刷分，必须提升模型的底层推理能力，而不是增加训练数据量。

看看顶尖模型在MMLU-Pro上的性能下降：

模型	原版MMLU	MMLU-Pro	性能落差
GPT-4	~88%	~72%	-16%
Claude-3-Opus	~86%	~70%	-16%
Gemini-Pro	~84%	~68%	-16%
Llama-3-70B	~79%	~56%	-23%

闭源模型的性能落差在16%左右，开源模型在23%左右——这个差距说明什么？

说明开源模型在推理能力上与闭源模型的真实差距，比原版MMLU显示的要大。原版MMLU上，Llama-3-70B（79%）与GPT-4（88%）只差9个百分点，看起来”差距不大”。但MMLU-Pro撕开了表象：真实差距是16个百分点。

这种区分度对于模型选型至关重要。如果你的应用需要强推理能力（比如复杂的数据分析、多步骤问题解决），那么原版MMLU可能会误导你选择”性价比高”的开源模型，而实际部署后发现推理能力不足。

必须用MMLU-Pro的场景：

仍然需要原版MMLU的场景：

最佳实践：同时报告两个基准的分数。原版MMLU看知识广度，MMLU-Pro看推理深度。

MMLU-Pro的出现标志着评估基准进入”反刷分”阶段。

过去的评估基准有个天然缺陷：当模型在基准上达到一定分数后，继续提升的最快方法不是改进能力，而是针对基准优化。这导致分数和真实能力脱钩。

MMLU-Pro的10选项设计、推理导向的问题筛选，让”刷分”变得困难——你必须真正提升推理能力才能提分。这就像从”开卷考试”变成”闭卷考试+禁止死记硬背”。

更重要的是，它给未来的评估基准设计提供了思路：

当GPT-5、Claude-4出现时，我们需要的不是”更多题目”，而是”更难的题目”——MMLU-Pro证明了这条路是可行的。

MMLU-Pro不是要替代原版MMLU，而是补齐了推理能力评估的短板。两者结合使用，才能全面评估模型的知识和推理能力。

关键数据：

推荐用途：大模型综合能力评估、推理能力测试、模型选型基准、学科专项分析

评估模型时必须启用思维链推理，否则会严重低估模型能力。