模型概述
Grok 4是xAI发布的第四代大型语言模型,在独立AI基准测试中首次夺得榜首位置。该模型拥有约1.7万亿参数,使用比Grok 2多100倍的计算资源进行训练,并采用强化学习计算量增加10倍。
Grok 4基于xAI的Colossus超级计算机(配备20万个GPU)构建,在数学推理方面实现重大突破,Grok 4 Heavy在AIME 2025数学竞赛中达到100%满分。该模型在人类最后考试(Humanity’s Last Exam)中得分25.4%(无工具),超越Gemini 2.5 Pro和OpenAI o3。模型支持25.6万token上下文窗口,并提供原生多模态能力和工具使用集成。
技术规格
核心参数
- 参数规模: 约1.7万亿参数
- 上下文长度: 256,000 tokens
- 架构: 大规模Transformer架构,采用混合专家系统(MoE)
- 训练数据: 未公开详细信息,训练数据包含截至2025年的内容
- 训练计算: 比Grok 2多100倍的训练计算量,强化学习计算量增加10倍
- 基础设施: Colossus超级计算机 - 20万个GPU集群
关键创新
- 超大规模训练 - 1.7万亿参数,100倍计算量提升
- 强化学习优化 - 10倍RL计算量增强推理能力
- 并行思考架构 - Grok 4 Heavy使用5个并行agent
- 长上下文支持 - 25.6万token上下文窗口
- AGI突破 - ARC-AGI-2得分15.9%,近乎翻倍商业SOTA
性能基准测试
数学能力
| 基准测试 | 得分 | 说明 |
|---|---|---|
| AIME 2025 | 100% | Grok 4 Heavy满分 |
| AIME (标准) | 95分 | |
| GPQA | 88分 |
推理能力
| 基准测试 | 得分 | 说明 |
|---|---|---|
| ARC-AGI-2 | 15.9% | 近乎翻倍此前商业SOTA,配合AIME完美得分 |
| Humanity’s Last Exam | 25.4% | 无工具,超越Gemini 2.5 Pro的21.6%和o3的21% |
| HLE (with tools) | 44.4% | 使用工具 |
编程能力
| 基准测试 | 得分 | 说明 |
|---|---|---|
| SWE-bench | 72-75% | 位列软件工程顶级模型 |
| Aider benchmark | 79.6% | Grok 4 Heavy排名第四 |
综合排名
| 排行榜 | 排名 |
|---|---|
| LMArena Text Arena | 第4名 |
| LMArena WebDev Arena | 第14名 |
| LiveBench Overall | 第4名 |
核心能力
- ✅ 顶级数学推理 - AIME 2025达到100%满分(Heavy版本)
- ✅ AGI级通用推理 - ARC-AGI-2达到15.9%突破性成绩
- ✅ 专家级编程 - SWE-bench达到72-75%
- ✅ PhD级知识 - Humanity’s Last Exam表现优异
- ✅ 并行推理 - Heavy版本使用5个并行agent协同工作
- ✅ 多模态理解 - 支持图像分析和语音模式
- ✅ 长上下文 - 25.6万token上下文窗口
- ✅ 工具集成 - 原生支持代码解释器和网页浏览器
- ✅ X平台整合 - 深度集成X(Twitter)搜索和实时信息
定价策略
API定价
| 类型 | 价格 |
|---|---|
| 输入 | $3.00/百万token |
| 输出 | $15.00/百万token |
订阅服务
- Free用户: 无限制访问Grok 4
- SuperGrok Heavy: $300/月/席位 - 访问Grok 4 Heavy并行推理
使用场景
- 数学研究: 奥林匹克级别数学问题求解
- AGI研究: 通用人工智能研究和基准测试
- 软件工程: 复杂代码库的开发和维护
- 科学研究: PhD级别的多学科知识应用
- 并行推理: 需要多角度分析的复杂决策
- 实时信息: 结合X平台的即时信息检索
- 工具使用: 代码执行、网页浏览等复杂任务
- 长文档处理: 25万token的超长上下文分析
相关链接
发布日期: 2025年7月10日
开发公司: xAI
模型类型: 推理模型
许可证: 专有/商业
综合评分: ⭐⭐⭐⭐ 4.6/5.0
首发直播: 150万观众观看