Gemini 2.5 深度思考

Posted on 八月 1, 2025

模型概述

Gemini 2.5 Deep Think是Google DeepMind推出的增强推理模型,采用创新的并行思考方法。该模型的核心创新在于能够同时探索多个假设,在响应前进行修正和组合。

通过延长推理时间,模型有更多时间探索不同假设,Google开发了新颖的强化学习技术来鼓励模型利用这些扩展推理路径。在数学奥林匹克IMO 2025基准测试中达到铜牌级别,在美国数学奥林匹克(USAMO)中达到第65百分位(相比Gemini 2.5 Pro的第50百分位有显著提升)。在人类最后考试(HLE)中得分34.8%(无工具),超越xAI Grok 4的25.4%和OpenAI o3的20.3%,成为该基准测试的最高分。

技术规格

核心参数

参数规模: 未公开(基于Gemini 2.5 Pro架构)
上下文长度: 1,000,000 tokens输入 + 192,000 tokens输出
架构: 稀疏混合专家Transformer架构,原生多模态支持
训练基础设施: Google TPU训练,使用JAX和ML Pathways

关键创新

并行思考 - 同时探索多个假设并进行修正组合
扩展推理路径 - 通过延长推理时间提升性能
新型强化学习 - 鼓励模型充分利用扩展推理能力
多模态原生支持 - 统一处理文本、图像、音频输入
超长上下文 - 100万token输入能力

性能基准测试

数学能力

基准测试	得分	说明
IMO 2025	铜牌级别	内部评估
USAMO	第65百分位	相比Gemini 2.5 Pro的第50百分位显著提升

推理能力

基准测试	得分	说明
Humanity’s Last Exam	34.8%	无工具,最高分,超越Grok 4的25.4%和o3的20.3%

编程能力

基准测试	得分	说明
LiveCodeBench V6	87.6%	竞赛级编程,相比5月的80.4%提升
竞赛级别	SOTA	当前最优性能

核心能力

✅ 并行多假设推理 - 同时探索多个解决方案路径
✅ 数学奥林匹克 - IMO铜牌级别,USAMO第65百分位
✅ 顶级推理能力 - HLE得分34.8%创最高纪录
✅ 竞赛级编程 - LiveCodeBench达到87.6%
✅ 跨领域专家知识 - 科学、数学等多领域顶级表现
✅ 多模态理解 - 原生文本、图像、音频处理
✅ 超长上下文 - 支持100万token输入
✅ 扩展推理 - 通过延长思考时间提升复杂问题解决能力

可用性与定价

发布计划

Gemini应用: 所有用户可用2.5 Flash
Google AI Studio: 2025年6月初开发者可用
Vertex AI: 2025年6月初企业可用
Pro模型: 随后提供2.5 Pro

订阅服务

Free用户: 有限访问
Google AI Ultra: 完整访问Deep Think模式

使用场景

数学研究: 奥林匹克级别数学问题求解
科学研究: 多学科交叉的复杂科研问题
竞赛编程: CodeForces、LeetCode等竞赛级编程
复杂推理: 需要多角度分析的战略决策
专家咨询: 跨领域专业知识应用
长文档分析: 利用100万token的超长上下文
并行假设验证: 同时探索多个解决方案路径
扩展思考任务: 需要深度推理的复杂问题