Grok 4

Posted on 七月 10, 2025

模型概述

Grok 4是xAI发布的第四代大型语言模型,在独立AI基准测试中首次夺得榜首位置。该模型拥有约1.7万亿参数,使用比Grok 2多100倍的计算资源进行训练,并采用强化学习计算量增加10倍。

Grok 4基于xAI的Colossus超级计算机(配备20万个GPU)构建,在数学推理方面实现重大突破,Grok 4 Heavy在AIME 2025数学竞赛中达到100%满分。该模型在人类最后考试(Humanity’s Last Exam)中得分25.4%(无工具),超越Gemini 2.5 Pro和OpenAI o3。模型支持25.6万token上下文窗口,并提供原生多模态能力和工具使用集成。

技术规格

核心参数

参数规模: 约1.7万亿参数
上下文长度: 256,000 tokens
架构: 大规模Transformer架构,采用混合专家系统(MoE)
训练数据: 未公开详细信息,训练数据包含截至2025年的内容
训练计算: 比Grok 2多100倍的训练计算量,强化学习计算量增加10倍
基础设施: Colossus超级计算机 - 20万个GPU集群

关键创新

超大规模训练 - 1.7万亿参数,100倍计算量提升
强化学习优化 - 10倍RL计算量增强推理能力
并行思考架构 - Grok 4 Heavy使用5个并行agent
长上下文支持 - 25.6万token上下文窗口
AGI突破 - ARC-AGI-2得分15.9%,近乎翻倍商业SOTA

性能基准测试

数学能力

基准测试	得分	说明
AIME 2025	100%	Grok 4 Heavy满分
AIME (标准)	95分
GPQA	88分

推理能力

基准测试	得分	说明
ARC-AGI-2	15.9%	近乎翻倍此前商业SOTA,配合AIME完美得分
Humanity’s Last Exam	25.4%	无工具,超越Gemini 2.5 Pro的21.6%和o3的21%
HLE (with tools)	44.4%	使用工具

编程能力

基准测试	得分	说明
SWE-bench	72-75%	位列软件工程顶级模型
Aider benchmark	79.6%	Grok 4 Heavy排名第四

综合排名

排行榜	排名
LMArena Text Arena	第4名
LMArena WebDev Arena	第14名
LiveBench Overall	第4名

核心能力

✅ 顶级数学推理 - AIME 2025达到100%满分(Heavy版本)
✅ AGI级通用推理 - ARC-AGI-2达到15.9%突破性成绩
✅ 专家级编程 - SWE-bench达到72-75%
✅ PhD级知识 - Humanity’s Last Exam表现优异
✅ 并行推理 - Heavy版本使用5个并行agent协同工作
✅ 多模态理解 - 支持图像分析和语音模式
✅ 长上下文 - 25.6万token上下文窗口
✅ 工具集成 - 原生支持代码解释器和网页浏览器
✅ X平台整合 - 深度集成X(Twitter)搜索和实时信息

定价策略

API定价

类型	价格
输入	$3.00/百万token
输出	$15.00/百万token

订阅服务

Free用户: 无限制访问Grok 4
SuperGrok Heavy: $300/月/席位 - 访问Grok 4 Heavy并行推理

使用场景

数学研究: 奥林匹克级别数学问题求解
AGI研究: 通用人工智能研究和基准测试
软件工程: 复杂代码库的开发和维护
科学研究: PhD级别的多学科知识应用
并行推理: 需要多角度分析的复杂决策
实时信息: 结合X平台的即时信息检索
工具使用: 代码执行、网页浏览等复杂任务
长文档处理: 25万token的超长上下文分析