Humanity's Last Exam: AI能力的终极衡量标准

核心观点:当MMLU被刷到90%以上、几乎失去区分度时,我们需要一个新的天花板。Humanity’s Last Exam用全球1000名专家贡献的2500道难题,重新为AI能力划定了一条远未被触及的上限。

为什么需要”最后的考试”

MMLU长期以来是衡量LLM知识广度的标准基准。但到2024年,顶尖模型已经在MMLU上突破90%准确率。当所有选手都能考90分以上时,这个考试就失去了区分度。

同样的问题正在蔓延到其他基准:ARC、HellaSwag、WinoGrande……这些曾经具有挑战性的测试,现在对于最强的模型来说已经不构成障碍。

Humanity’s Last Exam(HLE)的设计目标很明确:创建一个当前AI无法通过的测试。不是为了打击信心,而是为了在能力快速增长的时期提供一个可靠的测量工具。

2500道”AI回答不了”的问题

HLE的构建过程本身就很有说服力:

  1. 全球招募专家:来自50个国家、500多个机构的近1000名学科专家参与出题
  2. 高额奖金激励:总计50万美元奖金池——前50道最佳题目各奖5000美元,接下来500道各奖500美元
  3. AI前置过滤:所有候选题目先让最强AI模型回答,只保留模型无法正确回答的题目
  4. 双轮专家审核:通过AI过滤的题目还需经过两轮独立的人类专家审核

最终得到的2500道题目覆盖了极其广泛的领域:

领域 题目数
数学 450
物理 220
计算机科学 210
工程 200
人文学科 180
化学 160
生物 140
智力谜题 120
法律政策 100
其他专业领域 720+

这些不是普通的考试题。每一道都经过了”如果AI能答对,就不选”的筛选。它们代表的是各学科前沿的、需要深度推理的专家级问题。

当前AI的表现:差距依然巨大

截至2025年7月的排行榜数据:

  • Grok-4(使用工具):44.0% – 目前最高
  • Grok-4(独立测试):26.9%
  • 其他顶尖模型的表现更低

换个角度看:最强的AI模型在这个测试上,大约4道题中只能答对1道。这意味着在专家级推理和前沿知识方面,当前AI与人类专家之间还有很大差距。

不过进展速度也很惊人。有预测认为2025年底可能有模型突破50%。如果真的发生,将标志着AI能力的又一个里程碑。

防污染:不仅仅是去重

HLE在防止训练数据污染方面下了很大功夫:

金丝雀字符串:数据集包含BIG-bench超集的金丝雀字符串,帮助模型训练者在构建训练集时自动过滤掉HLE的内容。

私有保留集:除了公开的2500道题,还有额外的私有题目集,用于定期检测是否有模型在公开测试集上过拟合。

动态更新版本:2025年10月发布了HLE-Rolling,持续添加新题目,防止”刷题”行为。

这些措施使HLE比大多数静态基准更能抵抗”benchmark hacking”。

质量争议:并非完美

需要诚实地说:HLE也有问题。FutureHouse的研究发现,约29%的化学和生物文本题目的答案在同行评审文献中有直接矛盾的证据。

这不令人意外——在前沿科学领域,”正确答案”本身就可能是有争议的。但这提醒我们,即使是专家策划的基准也不是”真理”的完美代理。

使用HLE评估时,应该关注趋势而不是绝对分数。一个模型从20%提升到30%,比它具体答对了哪些题更有意义。

对AI安全的意义

HLE由Center for AI Safety发起,这不是巧合。当AI的能力快速增长时,我们需要可靠的工具来追踪这种增长。

如果有一天AI在HLE上达到90%+的准确率,这将是一个重要的信号:AI的推理能力已经接近或达到人类专家水平。这个信号对于AI安全政策的制定至关重要。

从这个角度看,HLE不仅是一个技术基准,更是一个社会监测工具

如何使用

1
2
3
4
5
6
7
8
9
10
from datasets import load_dataset

dataset = load_dataset("cais/hle", split="test")
print(f"总题目数: {len(dataset)}")

# 按学科统计
from collections import Counter
subjects = Counter(d['subject'] for d in dataset)
for subject, count in subjects.most_common(10):
print(f"{subject}: {count}")

注意:HLE的创建者要求用户不要公开分享、重新上传或分发数据集。这是为了保护基准的完整性。请遵守这一要求。


数据集链接: https://huggingface.co/datasets/cais/hle

创建机构: Center for AI Safety & Scale AI

适合场景: AI能力前沿评估、AGI进展跟踪、AI安全研究

质量评分: 4.8/5.0 | Research Only | 2500道专家级问题,90+学科领域

核心优势: 人类知识前沿难度、全球专家策划、多重防污染机制、持续动态更新

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero