xAI 发布 Grok 4: 首个在「人类最后考试」中突破 50%% 的 AI 模型

Posted on 七月 10, 2025

概述

2025年7月10日,埃隆·马斯克旗下的 xAI 公司发布了其旗舰 AI 模型 Grok 4,这是一个在多个前沿基准测试中创造新纪录的突破性模型。Grok 4 成为首个在「人类最后考试」(Humanity’s Last Exam)中突破 50% 准确率的 AI 模型,标志着人工智能在解决博士级别复杂问题方面迈出了历史性的一步。

核心突破

「人类最后考试」历史性突破

「人类最后考试」是一个包含 2,500 道精心策划的博士级别问题的基准测试,涵盖数学、物理、化学、语言学和工程学等领域。这个基准被设计为「同类中最后一个封闭式学术基准」,旨在测试 AI 在人类知识巅峰领域的能力。

Grok 4 Heavy 的表现:

Humanity’s Last Exam: 50.7%(首个突破 50% 的模型)
带工具使用: 44.4%(使用多个 AI 智能体协作)

相比之下,竞争对手的表现:

Google Gemini-Pro(带工具): 26.9%
OpenAI o3(带工具): 24.9%

Grok 4 Heavy 的表现几乎是竞争对手的两倍,展示了其在复杂推理和问题解决方面的压倒性优势。

ARC-AGI V2: 通用智能新高度

Grok 4 在 ARC-AGI(抽象与推理语料库)基准测试中创造了新的记录:

ARC-AGI V2: 15.9%(封闭模型的新纪录,几乎是 Claude Opus 4 的 8.6% 的两倍)
ARC-AGI V1: 66.6%(领先所有已知竞争对手)

这些成绩由 ARC Prize Foundation 主席 Greg Kamradt 独立验证,确保了结果的可信度。ARC-AGI 被认为是测试 AI 通用智能的关键基准,Grok 4 的表现表明它在抽象推理和模式识别方面达到了新的水平。

数学推理能力

Grok 4 在数学领域的表现同样令人印象深刻:

AIME25(美国数学邀请赛 2025): 100%(完美满分)
AIME 2024: 94%
GPQA Diamond(研究生级别物理、化学问答): 88%
MMLU-Pro(大规模多任务语言理解): 87%

这些成绩展示了 Grok 4 在高级数学和科学推理方面的卓越能力。

技术架构

训练基础设施

Grok 4 使用 xAI 的 Colossus 超级计算集群进行训练,这是一个拥有 200,000 个 GPU 的庞大系统。通过大规模强化学习训练,xAI 在预训练阶段就优化了模型的推理能力,将计算效率提高了 6 倍。

并行测试时计算

Grok 4 Heavy 采用了先进的「并行测试时计算」技术,允许模型同时考虑多个假设。这种方法类似于人类专家在解决复杂问题时会同时探索多个解决路径,然后选择最佳方案。

Grok 4 Heavy 是多智能体版本,它会并行启动多个智能体,每个智能体独立处理相同的任务,然后比较结果并汇聚到最终答案。这种方法显著提高了复杂推理任务的准确性。

原生工具使用

Grok 4 通过强化学习训练,原生支持工具使用,包括:

代码解释器: 执行和调试代码
网页浏览: 实时搜索和信息检索
函数调用: 结构化输出和 API 集成

这使得 Grok 4 能够处理通常对大语言模型具有挑战性的任务。

技术规格

输入输出能力

上下文窗口: 256,000 tokens
输入类型: 文本和图像(多模态)
输出速度: 约 75 tokens/秒
结构化输出: 支持函数调用和格式化输出

实时搜索集成

Grok 4 内置实时搜索功能,可以直接访问最新的网络信息,确保回答的时效性和准确性。

定价策略

API 定价

标准 Grok 4:

输入: 每百万 tokens 3.00 美元
缓存输入: 每百万 tokens 0.75 美元
输出: 每百万 tokens 15.00 美元
注: 超过 128,000 tokens 的输入,价格翻倍

Grok 4 Fast:

输入(<128K tokens): 每百万 tokens 0.20 美元
输入(>128K tokens): 每百万 tokens 0.40 美元
缓存输入: 每百万 tokens 0.05 美元
输出: 每百万 tokens 0.50-1.00 美元

实时搜索:

每 1,000 个来源 25 美元(每个来源 0.025 美元),在标准 token 费用基础上额外收费

订阅计划

Basic(免费):
- 有限的 Grok 3 访问权限
SuperGrok(年费 300 美元):
- Grok 4 访问权限
- 128,000 上下文记忆 tokens
- 增强访问频次
SuperGrok Heavy(年费 3,000 美元):
- Grok 4 Heavy 预览访问
- 专属支持
- 早期功能访问权

应用场景

Grok 4 的卓越性能使其适用于多种高级应用场景:

1. 科研辅助

博士级别问题求解
复杂数学推理
物理、化学问题分析
跨学科研究支持

2. 代码开发

高级编程辅助
代码调试和优化
算法设计和分析
技术文档生成

3. 智能决策

并行假设探索
复杂问题分解
多方案对比分析
风险评估和预测

4. 实时信息处理

网络信息检索和分析
时效性问题回答
动态数据整合
事实核查和验证

5. 多模态分析

图文混合理解
视觉推理任务
文档和图表解析
跨模态信息整合

可用性

Grok 4 目前通过多种渠道提供:

xAI API: 面向开发者的 API 接口
X(Twitter)平台: SuperGrok 和 SuperGrok Heavy 订阅用户
Microsoft Azure AI Foundry: 企业级部署

行业影响

推动 AGI 发展

Grok 4 在 ARC-AGI V2 上的 15.9% 成绩虽然距离人类水平(~85%)仍有差距,但它将封闭模型的记录提升了近一倍,显著缩小了与通用人工智能(AGI)之间的差距。

重新定义 AI 能力边界

在「人类最后考试」中突破 50% 的成绩,意味着 AI 首次在博士级别的综合知识和推理能力上达到了与人类专家竞争的水平。这标志着 AI 从「工具」向「专家伙伴」的转变。

计算效率的飞跃

通过大规模强化学习和并行测试时计算,Grok 4 在保持高性能的同时,将计算效率提高了 6 倍。这为未来更强大、更高效的 AI 模型铺平了道路。

技术创新点

并行多智能体推理: 同时启动多个智能体独立处理任务,提高复杂推理准确性
预训练阶段强化学习: 在预训练阶段就优化推理能力,而非仅在后训练阶段
原生工具集成: 通过强化学习训练模型使用工具,而非外部插件
实时搜索增强: 内置网络搜索能力,确保信息时效性
大规模 GPU 集群: 20 万 GPU 的 Colossus 集群,为大规模强化学习提供算力支持

与竞争对手对比

基准测试	Grok 4 Heavy	Claude Opus 4	GPT-5	Gemini 2.5 Pro
Humanity’s Last Exam	50.7%	~25%	~30%	26.9%(Pro)
ARC-AGI V2	15.9%	8.6%	~10%	-
AIME25	100%	-	-	-
GPQA Diamond	88%	-	~85%	-

Grok 4 在几乎所有关键基准测试中都领先于竞争对手,特别是在推理密集型任务中表现突出。

局限性

尽管 Grok 4 表现出色,但仍存在一些局限:

ARC-AGI 仍有差距: 15.9% 的成绩虽然是封闭模型的记录,但距离人类的 85% 仍有很大差距
成本较高: API 定价相对较贵,特别是对于大规模应用
上下文窗口限制: 256K tokens 的上下文窗口小于一些竞争对手(如 Gemini 的 200 万 tokens)
独立验证有限: 除 ARC-AGI 外,其他基准测试的结果尚未经过广泛的第三方验证

总结

Grok 4 代表了 AI 推理能力的一个重大飞跃。通过在「人类最后考试」中突破 50% 和在 ARC-AGI V2 上创造新纪录,Grok 4 证明了 AI 正在快速接近甚至在某些方面超越人类专家的能力。

xAI 通过大规模强化学习、并行测试时计算和原生工具集成等技术创新,打造了一个既强大又高效的 AI 系统。虽然距离通用人工智能(AGI)仍有距离,但 Grok 4 无疑是迈向这一目标的重要里程碑。

对于需要高级推理、复杂问题求解和实时信息处理的应用场景,Grok 4 提供了当前最先进的解决方案。随着 xAI 继续优化和扩展 Grok 系列模型,我们可以期待 AI 在更多领域展现出接近甚至超越人类的能力。