GSPO: Qwen团队用序列级优化重新定义GRPO，MoE训练终于稳了

Posted on 七月 24, 2025

GSPO: Qwen团队用序列级优化重新定义GRPO，MoE训练终于稳了

ArXiv ID: 2507.18071
作者: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
机构: Alibaba Group (Qwen Team)
发布日期: 2025-07-24

引言：GRPO的致命缺陷

GRPO（Group Relative Policy Optimization）自DeepSeek-R1发布以来，已经成为LLM强化学习训练的事实标准。它去掉了PPO中昂贵的Critic网络，用组内相对奖励来估计优势值，大幅降低了计算成本。但GRPO有一个被广泛忽视的根本性问题：它的token级重要性采样在数学上是错的。

Qwen团队在这篇论文中深入剖析了这个问题，并提出了GSPO（Group Sequence Policy Optimization）——一种基于序列级似然的策略优化算法。GSPO不仅理论上更严谨，实践中也表现更好：训练效率显著超越GRPO，并且彻底解决了MoE模型RL训练的不稳定性问题。GSPO已经是Qwen3模型背后的核心训练算法。

核心问题：GRPO的重要性采样为什么是错的？

token级 vs 序列级

重要性采样（Importance Sampling）是off-policy RL的基础工具。当我们用旧策略采集的数据来更新新策略时，需要用重要性权重来修正分布偏差。

GRPO继承了PPO的设计，在token级别定义重要性比率：

1	ratio_t = pi_new(token_t \| context) / pi_old(token_t \| context)

但这里有个关键问题：在LLM的自回归生成中，一个序列的概率是所有token概率的乘积。正确的序列级重要性比率应该是：

1 2	ratio_seq = pi_new(sequence) / pi_old(sequence) = prod_t [pi_new(token_t \| context) / pi_old(token_t \| context)]

这不是简单的「token级ratio的平均」，而是「token级ratio的乘积」。

为什么这个错误很严重？

GRPO对每个token独立应用PPO的clipping机制，但token级ratio和序列级ratio之间没有单调关系：

方差爆炸：token级ratio的微小偏差在长序列中会被指数级放大
梯度噪声：错误的重要性权重引入高方差的训练噪声
Clipping失效：token级clipping无法正确约束策略更新的幅度
MoE灾难：在MoE模型中，专家路由的变化让token级ratio剧烈波动，直接导致训练崩溃

GSPO的核心设计

设计原则：回归序列级

GSPO的核心思想很简单：在序列级别定义重要性比率，在序列级别做clipping，在序列级别做优化。

1. 序列级重要性比率

1	ratio = pi_theta(y\|x) / pi_old(y\|x)

其中y是完整的响应序列，x是输入prompt。

2. 序列级Clipping

1	L_GSPO = E[min(ratio * A, clip(ratio, 1-eps, 1+eps) * A)]

3. 序列级奖励：奖励信号直接作用于整个序列，不需要分配到每个token。

反直觉的发现：更多clipping反而更好

论文中最令人意外的发现是：GSPO裁剪的token比例比GRPO高两个数量级（约100倍），但训练效率反而更高。

这是因为：

GRPO的token级clipping看似保守，实际上无法真正约束序列级的策略偏移
GSPO的序列级clipping精准控制了策略更新的幅度
少量高质量的梯度信号 > 大量带噪声的梯度信号

MoE稳定性：彻底解决路由震荡

MoE模型的RL训练一直是个难题。GRPO在MoE上的失败原因：训练更新后专家激活集合改变，token级ratio剧烈震荡，导致训练崩溃。之前的解决方案「Routing Replay」会限制模型的表达能力。

GSPO的解决方案更优雅：序列级似然对token级专家激活的变化具有鲁棒性，完全不需要Routing Replay。

技术对比

特性	PPO	GRPO	GSPO
Critic网络	需要	不需要	不需要
重要性比率	Token级	Token级	序列级
Clipping	Token级	Token级	序列级
MoE支持	困难	非常困难	原生支持
Routing Replay	N/A	需要	不需要
理论正确性	是	有缺陷	是
实际贡献	InstructGPT	DeepSeek-R1	Qwen3

个人评价

这篇论文的贡献不在于提出一个全新的范式，而在于纠正了一个被广泛忽视的根本性错误。GSPO的修正简洁而优雅：回归重要性采样的正确定义——序列级。

GSPO已经在Qwen3中得到验证，这说明它不仅是理论上的改进，更是经过大规模实战检验的成熟方案。对于任何正在做LLM RL训练的团队，GSPO都应该成为首选算法。

评分: 4.5/5.0