Grok 4

模型概述

Grok 4是xAI发布的第四代大型语言模型,在独立AI基准测试中首次夺得榜首位置。该模型拥有约1.7万亿参数,使用比Grok 2多100倍的计算资源进行训练,并采用强化学习计算量增加10倍。

Grok 4基于xAI的Colossus超级计算机(配备20万个GPU)构建,在数学推理方面实现重大突破,Grok 4 Heavy在AIME 2025数学竞赛中达到100%满分。该模型在人类最后考试(Humanity’s Last Exam)中得分25.4%(无工具),超越Gemini 2.5 Pro和OpenAI o3。模型支持25.6万token上下文窗口,并提供原生多模态能力和工具使用集成。

技术规格

核心参数

  • 参数规模: 约1.7万亿参数
  • 上下文长度: 256,000 tokens
  • 架构: 大规模Transformer架构,采用混合专家系统(MoE)
  • 训练数据: 未公开详细信息,训练数据包含截至2025年的内容
  • 训练计算: 比Grok 2多100倍的训练计算量,强化学习计算量增加10倍
  • 基础设施: Colossus超级计算机 - 20万个GPU集群

关键创新

  • 超大规模训练 - 1.7万亿参数,100倍计算量提升
  • 强化学习优化 - 10倍RL计算量增强推理能力
  • 并行思考架构 - Grok 4 Heavy使用5个并行agent
  • 长上下文支持 - 25.6万token上下文窗口
  • AGI突破 - ARC-AGI-2得分15.9%,近乎翻倍商业SOTA

性能基准测试

数学能力

基准测试 得分 说明
AIME 2025 100% Grok 4 Heavy满分
AIME (标准) 95分
GPQA 88分

推理能力

基准测试 得分 说明
ARC-AGI-2 15.9% 近乎翻倍此前商业SOTA,配合AIME完美得分
Humanity’s Last Exam 25.4% 无工具,超越Gemini 2.5 Pro的21.6%和o3的21%
HLE (with tools) 44.4% 使用工具

编程能力

基准测试 得分 说明
SWE-bench 72-75% 位列软件工程顶级模型
Aider benchmark 79.6% Grok 4 Heavy排名第四

综合排名

排行榜 排名
LMArena Text Arena 第4名
LMArena WebDev Arena 第14名
LiveBench Overall 第4名

核心能力

  • 顶级数学推理 - AIME 2025达到100%满分(Heavy版本)
  • AGI级通用推理 - ARC-AGI-2达到15.9%突破性成绩
  • 专家级编程 - SWE-bench达到72-75%
  • PhD级知识 - Humanity’s Last Exam表现优异
  • 并行推理 - Heavy版本使用5个并行agent协同工作
  • 多模态理解 - 支持图像分析和语音模式
  • 长上下文 - 25.6万token上下文窗口
  • 工具集成 - 原生支持代码解释器和网页浏览器
  • X平台整合 - 深度集成X(Twitter)搜索和实时信息

定价策略

API定价

类型 价格
输入 $3.00/百万token
输出 $15.00/百万token

订阅服务

  • Free用户: 无限制访问Grok 4
  • SuperGrok Heavy: $300/月/席位 - 访问Grok 4 Heavy并行推理

使用场景

  • 数学研究: 奥林匹克级别数学问题求解
  • AGI研究: 通用人工智能研究和基准测试
  • 软件工程: 复杂代码库的开发和维护
  • 科学研究: PhD级别的多学科知识应用
  • 并行推理: 需要多角度分析的复杂决策
  • 实时信息: 结合X平台的即时信息检索
  • 工具使用: 代码执行、网页浏览等复杂任务
  • 长文档处理: 25万token的超长上下文分析

相关链接


发布日期: 2025年7月10日
开发公司: xAI
模型类型: 推理模型
许可证: 专有/商业
综合评分: ⭐⭐⭐⭐ 4.6/5.0
首发直播: 150万观众观看

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero