模型概述
Gemini 2.5 Deep Think是Google DeepMind推出的增强推理模型,采用创新的并行思考方法。该模型的核心创新在于能够同时探索多个假设,在响应前进行修正和组合。
通过延长推理时间,模型有更多时间探索不同假设,Google开发了新颖的强化学习技术来鼓励模型利用这些扩展推理路径。在数学奥林匹克IMO 2025基准测试中达到铜牌级别,在美国数学奥林匹克(USAMO)中达到第65百分位(相比Gemini 2.5 Pro的第50百分位有显著提升)。在人类最后考试(HLE)中得分34.8%(无工具),超越xAI Grok 4的25.4%和OpenAI o3的20.3%,成为该基准测试的最高分。
技术规格
核心参数
- 参数规模: 未公开(基于Gemini 2.5 Pro架构)
- 上下文长度: 1,000,000 tokens输入 + 192,000 tokens输出
- 架构: 稀疏混合专家Transformer架构,原生多模态支持
- 训练基础设施: Google TPU训练,使用JAX和ML Pathways
关键创新
- 并行思考 - 同时探索多个假设并进行修正组合
- 扩展推理路径 - 通过延长推理时间提升性能
- 新型强化学习 - 鼓励模型充分利用扩展推理能力
- 多模态原生支持 - 统一处理文本、图像、音频输入
- 超长上下文 - 100万token输入能力
性能基准测试
数学能力
| 基准测试 | 得分 | 说明 |
|---|---|---|
| IMO 2025 | 铜牌级别 | 内部评估 |
| USAMO | 第65百分位 | 相比Gemini 2.5 Pro的第50百分位显著提升 |
推理能力
| 基准测试 | 得分 | 说明 |
|---|---|---|
| Humanity’s Last Exam | 34.8% | 无工具,最高分,超越Grok 4的25.4%和o3的20.3% |
编程能力
| 基准测试 | 得分 | 说明 |
|---|---|---|
| LiveCodeBench V6 | 87.6% | 竞赛级编程,相比5月的80.4%提升 |
| 竞赛级别 | SOTA | 当前最优性能 |
核心能力
- ✅ 并行多假设推理 - 同时探索多个解决方案路径
- ✅ 数学奥林匹克 - IMO铜牌级别,USAMO第65百分位
- ✅ 顶级推理能力 - HLE得分34.8%创最高纪录
- ✅ 竞赛级编程 - LiveCodeBench达到87.6%
- ✅ 跨领域专家知识 - 科学、数学等多领域顶级表现
- ✅ 多模态理解 - 原生文本、图像、音频处理
- ✅ 超长上下文 - 支持100万token输入
- ✅ 扩展推理 - 通过延长思考时间提升复杂问题解决能力
可用性与定价
发布计划
- Gemini应用: 所有用户可用2.5 Flash
- Google AI Studio: 2025年6月初开发者可用
- Vertex AI: 2025年6月初企业可用
- Pro模型: 随后提供2.5 Pro
订阅服务
- Free用户: 有限访问
- Google AI Ultra: 完整访问Deep Think模式
使用场景
- 数学研究: 奥林匹克级别数学问题求解
- 科学研究: 多学科交叉的复杂科研问题
- 竞赛编程: CodeForces、LeetCode等竞赛级编程
- 复杂推理: 需要多角度分析的战略决策
- 专家咨询: 跨领域专业知识应用
- 长文档分析: 利用100万token的超长上下文
- 并行假设验证: 同时探索多个解决方案路径
- 扩展思考任务: 需要深度推理的复杂问题
相关链接
发布日期: 2025年8月1日
开发公司: Google DeepMind
模型类型: 推理模型
许可证: 专有/商业
综合评分: ⭐⭐⭐⭐⭐ 4.7/5.0
核心创新: 并行思考 + 扩展推理