GSPO: Qwen团队用序列级优化重新定义GRPO,MoE训练终于稳了
ArXiv ID: 2507.18071
作者: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
机构: Alibaba Group (Qwen Team)
发布日期: 2025-07-24
引言:GRPO的致命缺陷
GRPO(Group Relative Policy Optimization)自DeepSeek-R1发布以来,已经成为LLM强化学习训练的事实标准。它去掉了PPO中昂贵的Critic网络,用组内相对奖励来估计优势值,大幅降低了计算成本。但GRPO有一个被广泛忽视的根本性问题:它的token级重要性采样在数学上是错的。
Qwen团队在这篇论文中深入剖析了这个问题,并提出了GSPO(Group Sequence Policy Optimization)——一种基于序列级似然的策略优化算法。GSPO不仅理论上更严谨,实践中也表现更好:训练效率显著超越GRPO,并且彻底解决了MoE模型RL训练的不稳定性问题。GSPO已经是Qwen3模型背后的核心训练算法。
核心问题:GRPO的重要性采样为什么是错的?
token级 vs 序列级
重要性采样(Importance Sampling)是off-policy RL的基础工具。当我们用旧策略采集的数据来更新新策略时,需要用重要性权重来修正分布偏差。
GRPO继承了PPO的设计,在token级别定义重要性比率:
1 | ratio_t = pi_new(token_t | context) / pi_old(token_t | context) |
但这里有个关键问题:在LLM的自回归生成中,一个序列的概率是所有token概率的乘积。正确的序列级重要性比率应该是:
1 | ratio_seq = pi_new(sequence) / pi_old(sequence) |
这不是简单的「token级ratio的平均」,而是「token级ratio的乘积」。
为什么这个错误很严重?
GRPO对每个token独立应用PPO的clipping机制,但token级ratio和序列级ratio之间没有单调关系:
- 方差爆炸:token级ratio的微小偏差在长序列中会被指数级放大
- 梯度噪声:错误的重要性权重引入高方差的训练噪声
- Clipping失效:token级clipping无法正确约束策略更新的幅度
- MoE灾难:在MoE模型中,专家路由的变化让token级ratio剧烈波动,直接导致训练崩溃
GSPO的核心设计
设计原则:回归序列级
GSPO的核心思想很简单:在序列级别定义重要性比率,在序列级别做clipping,在序列级别做优化。
1. 序列级重要性比率
1 | ratio = pi_theta(y|x) / pi_old(y|x) |
其中y是完整的响应序列,x是输入prompt。
2. 序列级Clipping
1 | L_GSPO = E[min(ratio * A, clip(ratio, 1-eps, 1+eps) * A)] |
3. 序列级奖励:奖励信号直接作用于整个序列,不需要分配到每个token。
反直觉的发现:更多clipping反而更好
论文中最令人意外的发现是:GSPO裁剪的token比例比GRPO高两个数量级(约100倍),但训练效率反而更高。
这是因为:
- GRPO的token级clipping看似保守,实际上无法真正约束序列级的策略偏移
- GSPO的序列级clipping精准控制了策略更新的幅度
- 少量高质量的梯度信号 > 大量带噪声的梯度信号
MoE稳定性:彻底解决路由震荡
MoE模型的RL训练一直是个难题。GRPO在MoE上的失败原因:训练更新后专家激活集合改变,token级ratio剧烈震荡,导致训练崩溃。之前的解决方案「Routing Replay」会限制模型的表达能力。
GSPO的解决方案更优雅:序列级似然对token级专家激活的变化具有鲁棒性,完全不需要Routing Replay。
技术对比
| 特性 | PPO | GRPO | GSPO |
|---|---|---|---|
| Critic网络 | 需要 | 不需要 | 不需要 |
| 重要性比率 | Token级 | Token级 | 序列级 |
| Clipping | Token级 | Token级 | 序列级 |
| MoE支持 | 困难 | 非常困难 | 原生支持 |
| Routing Replay | N/A | 需要 | 不需要 |
| 理论正确性 | 是 | 有缺陷 | 是 |
| 实际贡献 | InstructGPT | DeepSeek-R1 | Qwen3 |
个人评价
这篇论文的贡献不在于提出一个全新的范式,而在于纠正了一个被广泛忽视的根本性错误。GSPO的修正简洁而优雅:回归重要性采样的正确定义——序列级。
GSPO已经在Qwen3中得到验证,这说明它不仅是理论上的改进,更是经过大规模实战检验的成熟方案。对于任何正在做LLM RL训练的团队,GSPO都应该成为首选算法。
评分: 4.5/5.0