Humanity's Last Exam: AI能力的终极衡量标准

Posted on 一月 31, 2025

核心观点：当MMLU被刷到90%以上、几乎失去区分度时，我们需要一个新的天花板。Humanity’s Last Exam用全球1000名专家贡献的2500道难题，重新为AI能力划定了一条远未被触及的上限。

为什么需要”最后的考试”

MMLU长期以来是衡量LLM知识广度的标准基准。但到2024年，顶尖模型已经在MMLU上突破90%准确率。当所有选手都能考90分以上时，这个考试就失去了区分度。

同样的问题正在蔓延到其他基准：ARC、HellaSwag、WinoGrande……这些曾经具有挑战性的测试，现在对于最强的模型来说已经不构成障碍。

Humanity’s Last Exam（HLE）的设计目标很明确：创建一个当前AI无法通过的测试。不是为了打击信心，而是为了在能力快速增长的时期提供一个可靠的测量工具。

2500道”AI回答不了”的问题

HLE的构建过程本身就很有说服力：

全球招募专家：来自50个国家、500多个机构的近1000名学科专家参与出题
高额奖金激励：总计50万美元奖金池——前50道最佳题目各奖5000美元，接下来500道各奖500美元
AI前置过滤：所有候选题目先让最强AI模型回答，只保留模型无法正确回答的题目
双轮专家审核：通过AI过滤的题目还需经过两轮独立的人类专家审核

最终得到的2500道题目覆盖了极其广泛的领域：

领域	题目数
数学	450
物理	220
计算机科学	210
工程	200
人文学科	180
化学	160
生物	140
智力谜题	120
法律政策	100
其他专业领域	720+

这些不是普通的考试题。每一道都经过了”如果AI能答对，就不选”的筛选。它们代表的是各学科前沿的、需要深度推理的专家级问题。

当前AI的表现：差距依然巨大

截至2025年7月的排行榜数据：

Grok-4（使用工具）：44.0% – 目前最高
Grok-4（独立测试）：26.9%
其他顶尖模型的表现更低

换个角度看：最强的AI模型在这个测试上，大约4道题中只能答对1道。这意味着在专家级推理和前沿知识方面，当前AI与人类专家之间还有很大差距。

不过进展速度也很惊人。有预测认为2025年底可能有模型突破50%。如果真的发生，将标志着AI能力的又一个里程碑。

防污染：不仅仅是去重

HLE在防止训练数据污染方面下了很大功夫：

金丝雀字符串：数据集包含BIG-bench超集的金丝雀字符串，帮助模型训练者在构建训练集时自动过滤掉HLE的内容。

私有保留集：除了公开的2500道题，还有额外的私有题目集，用于定期检测是否有模型在公开测试集上过拟合。

动态更新版本：2025年10月发布了HLE-Rolling，持续添加新题目，防止”刷题”行为。

这些措施使HLE比大多数静态基准更能抵抗”benchmark hacking”。

质量争议：并非完美

需要诚实地说：HLE也有问题。FutureHouse的研究发现，约29%的化学和生物文本题目的答案在同行评审文献中有直接矛盾的证据。

这不令人意外——在前沿科学领域，”正确答案”本身就可能是有争议的。但这提醒我们，即使是专家策划的基准也不是”真理”的完美代理。

使用HLE评估时，应该关注趋势而不是绝对分数。一个模型从20%提升到30%，比它具体答对了哪些题更有意义。

对AI安全的意义

HLE由Center for AI Safety发起，这不是巧合。当AI的能力快速增长时，我们需要可靠的工具来追踪这种增长。

如果有一天AI在HLE上达到90%+的准确率，这将是一个重要的信号：AI的推理能力已经接近或达到人类专家水平。这个信号对于AI安全政策的制定至关重要。

从这个角度看，HLE不仅是一个技术基准，更是一个社会监测工具。

如何使用

from datasets import load_dataset

dataset = load_dataset("cais/hle", split="test")
print(f"总题目数: {len(dataset)}")

# 按学科统计
from collections import Counter
subjects = Counter(d['subject'] for d in dataset)
for subject, count in subjects.most_common(10):
    print(f"{subject}: {count}")

注意：HLE的创建者要求用户不要公开分享、重新上传或分发数据集。这是为了保护基准的完整性。请遵守这一要求。

数据集链接: https://huggingface.co/datasets/cais/hle

创建机构: Center for AI Safety & Scale AI

适合场景: AI能力前沿评估、AGI进展跟踪、AI安全研究

质量评分: 4.8/5.0 | Research Only | 2500道专家级问题，90+学科领域

核心优势: 人类知识前沿难度、全球专家策划、多重防污染机制、持续动态更新