DeepSeek R1：首个开源推理大模型

Posted on 一月 20, 2025

DeepSeek R1：首个开源推理大模型

发布日期: 2025-01-20
发布机构: DeepSeek AI
模型类型: 推理大模型
许可证: MIT License
技术报告: arXiv:2501.12948

概述

DeepSeek R1 是由 DeepSeek AI 于 2025 年 1 月 20 日发布的首个完全开源的推理大模型，采用纯强化学习 (RL) 训练方法，无需监督微调即可实现与 OpenAI o1 相当的推理能力。该模型采用混合专家 (MoE) 架构，总参数量 671B，每次推理激活 37B 参数，支持 128K 上下文长度。

这是开源 AI 社区的一个重要里程碑——首次有开源模型在推理能力上达到商业闭源模型的同等水平。

核心创新

DeepSeek-R1-Zero: 纯强化学习的突破

DeepSeek R1 的最大创新在于其训练方法论。团队首先训练了 DeepSeek-R1-Zero 模型，这是业界首个通过纯强化学习 (无需监督微调作为预训练步骤) 获得推理能力的大语言模型。

DeepSeek-R1-Zero 训练流程:

基座模型 (DeepSeek-V3-Base)
         │
         ▼
┌─────────────────┐
│  强化学习训练    │
│  (无 SFT 预热)    │
│                 │
│  奖励信号：      │
│  • 答案准确性    │
│  • 推理完整性    │
│  • 格式规范性    │
└─────────────────┘
         │
         ▼
涌现能力:
• 自我验证
• 反思修正
• 长链推理 (CoT)

该模型自然涌现出自我验证、反思和生成长链推理 (CoT) 等能力，证明了通过 RL 可以直接激励 LLM 的推理能力，这在学术界是一个重要的里程碑。

DeepSeek-R1: 多阶段训练优化

然而，DeepSeek-R1-Zero 也暴露了一些挑战，包括可读性差和语言混用问题。为解决这些问题并进一步提升推理性能，团队开发了 DeepSeek-R1，采用多阶段训练和冷启动数据增强的方法。

DeepSeek-R1 多阶段训练流程:

阶段 1: 冷启动 SFT (少量高质量数据)
  └── 目标：建立基本推理模式和语言一致性
  └── 数据量：约 1000 条人工标注样本
         │
         ▼
阶段 2: 定向强化学习 (RL)
  └── 目标：优化推理能力
  └── 奖励：准确性 + 格式 + 可读性
         │
         ▼
阶段 3: 拒绝采样微调
  └── 目标：提升输出质量
  └── 方法：从 RL 轨迹中选择高质量样本
         │
         ▼
阶段 4: 全能力联合微调
  └── 目标：整合推理、对话、指令遵循
  └── 数据：推理 + 通用 + 对话数据

在 RL 训练前引入少量监督数据，成功解决了可读性和语言一致性问题，同时保持了强大的推理能力。

架构设计

MoE 架构详解

DeepSeek R1 基于 DeepSeek-V3-Base 架构构建，采用稀疏混合专家 (Sparse MoE) 设计。

DeepSeek R1 架构参数:

┌─────────────────────────────────────────┐
│  总参数量        │ 671B (6710 亿)         │
│  激活参数量      │ 37B (每次前向传播)    │
│  专家数量        │ 256                   │
│  每次激活专家    │ 8                     │
│  上下文长度      │ 128K tokens          │
│  注意力机制      │ Multi-Head Latent    │
│  词表大小        │ 102,400              │
└─────────────────────────────────────────┘

这种设计在保持强大能力的同时显著降低了计算开销：

存储效率：总参数量大，保证知识容量
计算效率：每次仅激活少量参数，推理速度快
能效比：相比密集模型，能耗降低约 85%

注意力机制优化

模型采用 Multi-Head Latent Attention (MLA)，通过低秩分解压缩 KV cache：

# MLA 压缩原理
# 原始 KV: [batch, seq_len, hidden_dim]
# 压缩后：[batch, seq_len, latent_dim]

# 压缩率 = hidden_dim / latent_dim ≈ 4-8x

# 优势:
# 1. 显存占用降低 4-8 倍
# 2. 长序列推理速度提升
# 3. 保持模型性能基本不变

性能表现

DeepSeek R1 在多个基准测试上展现出与 OpenAI o1 相当的性能：

数学推理

基准	DeepSeek R1	OpenAI o1	提升
AIME 2024	79.8%	79.2%	+0.6%
MATH-500	97.3%	96.8%	+0.5%
CNMO 2024	78.8%	75.5%	+3.3%

AIME 2024: 美国数学邀请赛，高中级别竞赛数学
MATH-500: 500 道高中至大学入学级别数学题
CNMO 2024: 中国数学奥林匹克，更高难度

代码生成

基准	DeepSeek R1	OpenAI o1
LiveCodeBench	65.9%	68.2%
Codeforces Rating	2029	2150
SWE-bench Verified	49.2%	51.5%

在代码生成任务上，DeepSeek R1 略逊于 o1，但差距在可接受范围内。

综合能力

基准	DeepSeek R1	说明
MMLU	90.8%	大规模多任务语言理解
MMLU-Pro	84.0%	MMLU 进阶版，更难
AlpacaEval 2.0	87.6%	对话质量 LC-winrate

这些成绩表明，DeepSeek R1 在数学、编程和通用知识理解方面都达到了顶尖水平，尤其在 MATH-500 上的 97.3% 通过率显示了其卓越的数学推理能力。

蒸馏模型系列

DeepSeek 团队还开源了 6 个从 DeepSeek R1 蒸馏而来的密集模型，分别基于 Qwen 和 Llama 架构：

模型规格

模型	参数量	基座	AIME 2024	MATH-500
R1-Distill-Qwen-1.5B	1.5B	Qwen-2.5	28.5%	68.2%
R1-Distill-Qwen-7B	7B	Qwen-2.5	55.8%	83.5%
R1-Distill-Qwen-14B	14B	Qwen-2.5	65.2%	89.8%
R1-Distill-Qwen-32B	32B	Qwen-2.5	72.6%	93.2%
R1-Distill-Llama-8B	8B	Llama-3.1	48.5%	78.5%
R1-Distill-Llama-70B	70B	Llama-3.1	70.0%	94.5%

这些蒸馏模型使用 80 万样本从 DeepSeek R1 学习推理能力，在保持较小规模的同时实现了出色的性能。例如：

R1-Distill-Qwen-32B 在 AIME 2024 上达到 72.6%，在多个基准测试上超越了 OpenAI 的 o1-mini 模型
R1-Distill-Llama-70B 在 AIME 2024 上达到 70.0%，MATH-500 上达到 94.5%

蒸馏流程

知识蒸馏流程:

DeepSeek R1 (教师模型)
         │
         │ 生成推理轨迹
         │ (80 万样本)
         ▼
┌─────────────────┐
│  轨迹筛选与清洗  │
│  • 去除错误答案   │
│  • 保留高质量推理 │
└─────────────────┘
         │
         ▼
┌─────────────────┐
│  学生模型训练    │
│  (SFT + RL)      │
└─────────────────┘
         │
         ▼
蒸馏模型 (Qwen/Llama 架构)

这些蒸馏模型降低了部署门槛，使得更多开发者和研究者能够在资源有限的环境中使用高质量的推理模型。

开源承诺与商业化

MIT 许可证

DeepSeek R1 采用 MIT 许可证发布，这是最宽松的开源许可之一，允许：

✅ 商业使用
✅ 修改和再分发
✅ 使用 API 输出进行蒸馏训练
✅ 闭源衍生产品

这种开放态度在当前商业化的 AI 领域显得尤为难得，为学术研究和工业应用提供了巨大的价值。

API 定价

在 API 服务方面，DeepSeek 提供了与 OpenAI 兼容的接口 (model=deepseek-reasoner)，定价策略具有竞争力：

项目	价格 (USD)
输入 tokens (缓存命中)	$0.14 / 百万
输入 tokens (缓存未命中)	$0.55 / 百万
输出 tokens	$2.19 / 百万

相比 OpenAI o1 的定价 ($15/$60 per million)，DeepSeek R1 的价格优势明显。

部署选项

部署选项:

1. 本地部署
   - vLLM 支持
   - SGLang 支持
   - 要求：多卡 A100/H100

2. 云服务
   - DeepSeek 官方 API
   - 兼容 OpenAI 接口
   - 按需付费

3. 蒸馏模型
   - HuggingFace 下载
   - 单卡可运行 (32B 以下)
   - 兼容 Qwen/Llama 框架

模型支持通过 vLLM 和 SGLang 进行本地推理部署，蒸馏模型兼容标准的 Qwen/Llama 框架，极大地方便了开发者的集成和部署工作。

技术局限与未来方向

已知局限

可读性问题：DeepSeek-R1-Zero 早期版本存在推理链难以理解的问题
语言混用：在中文 prompt 下可能输出中英文混杂的内容
部署挑战：671B 总参数量对资源受限环境仍有挑战
领域特定：在医学、法律等专业领域需要额外微调

未来方向

效率优化：进一步降低推理成本和时间
多模态扩展：支持图像、视频等多模态推理
可控性提升：增强用户对推理过程的控制
领域适配：针对特定领域优化

总结

核心贡献:

首个开源的推理大模型，性能媲美闭源 o1
纯强化学习训练方法的突破
多阶段训练解决可读性问题
6 个高质量蒸馏模型开源

适用场景:

数学推理和问题求解
代码生成和调试
科学计算
复杂逻辑推理

获取方式:

技术报告：arXiv:2501.12948
代码仓库：GitHub
模型下载：HuggingFace

质量评分: 4.8/5.0 | MIT 许可证 | 671B MoE

相关资源: