Gemini 2.5 深度思考

模型概述

Gemini 2.5 Deep Think是Google DeepMind推出的增强推理模型,采用创新的并行思考方法。该模型的核心创新在于能够同时探索多个假设,在响应前进行修正和组合。

通过延长推理时间,模型有更多时间探索不同假设,Google开发了新颖的强化学习技术来鼓励模型利用这些扩展推理路径。在数学奥林匹克IMO 2025基准测试中达到铜牌级别,在美国数学奥林匹克(USAMO)中达到第65百分位(相比Gemini 2.5 Pro的第50百分位有显著提升)。在人类最后考试(HLE)中得分34.8%(无工具),超越xAI Grok 4的25.4%和OpenAI o3的20.3%,成为该基准测试的最高分。

技术规格

核心参数

  • 参数规模: 未公开(基于Gemini 2.5 Pro架构)
  • 上下文长度: 1,000,000 tokens输入 + 192,000 tokens输出
  • 架构: 稀疏混合专家Transformer架构,原生多模态支持
  • 训练基础设施: Google TPU训练,使用JAX和ML Pathways

关键创新

  • 并行思考 - 同时探索多个假设并进行修正组合
  • 扩展推理路径 - 通过延长推理时间提升性能
  • 新型强化学习 - 鼓励模型充分利用扩展推理能力
  • 多模态原生支持 - 统一处理文本、图像、音频输入
  • 超长上下文 - 100万token输入能力

性能基准测试

数学能力

基准测试 得分 说明
IMO 2025 铜牌级别 内部评估
USAMO 第65百分位 相比Gemini 2.5 Pro的第50百分位显著提升

推理能力

基准测试 得分 说明
Humanity’s Last Exam 34.8% 无工具,最高分,超越Grok 4的25.4%和o3的20.3%

编程能力

基准测试 得分 说明
LiveCodeBench V6 87.6% 竞赛级编程,相比5月的80.4%提升
竞赛级别 SOTA 当前最优性能

核心能力

  • 并行多假设推理 - 同时探索多个解决方案路径
  • 数学奥林匹克 - IMO铜牌级别,USAMO第65百分位
  • 顶级推理能力 - HLE得分34.8%创最高纪录
  • 竞赛级编程 - LiveCodeBench达到87.6%
  • 跨领域专家知识 - 科学、数学等多领域顶级表现
  • 多模态理解 - 原生文本、图像、音频处理
  • 超长上下文 - 支持100万token输入
  • 扩展推理 - 通过延长思考时间提升复杂问题解决能力

可用性与定价

发布计划

  • Gemini应用: 所有用户可用2.5 Flash
  • Google AI Studio: 2025年6月初开发者可用
  • Vertex AI: 2025年6月初企业可用
  • Pro模型: 随后提供2.5 Pro

订阅服务

  • Free用户: 有限访问
  • Google AI Ultra: 完整访问Deep Think模式

使用场景

  • 数学研究: 奥林匹克级别数学问题求解
  • 科学研究: 多学科交叉的复杂科研问题
  • 竞赛编程: CodeForces、LeetCode等竞赛级编程
  • 复杂推理: 需要多角度分析的战略决策
  • 专家咨询: 跨领域专业知识应用
  • 长文档分析: 利用100万token的超长上下文
  • 并行假设验证: 同时探索多个解决方案路径
  • 扩展思考任务: 需要深度推理的复杂问题

相关链接


发布日期: 2025年8月1日
开发公司: Google DeepMind
模型类型: 推理模型
许可证: 专有/商业
综合评分: ⭐⭐⭐⭐⭐ 4.7/5.0
核心创新: 并行思考 + 扩展推理

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero