GSPO: Qwen团队用序列级优化重新定义GRPO,MoE训练终于稳了

GSPO: Qwen团队用序列级优化重新定义GRPO,MoE训练终于稳了

ArXiv ID: 2507.18071
作者: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
机构: Alibaba Group (Qwen Team)
发布日期: 2025-07-24

引言:GRPO的致命缺陷

GRPO(Group Relative Policy Optimization)自DeepSeek-R1发布以来,已经成为LLM强化学习训练的事实标准。它去掉了PPO中昂贵的Critic网络,用组内相对奖励来估计优势值,大幅降低了计算成本。但GRPO有一个被广泛忽视的根本性问题:它的token级重要性采样在数学上是错的

Qwen团队在这篇论文中深入剖析了这个问题,并提出了GSPO(Group Sequence Policy Optimization)——一种基于序列级似然的策略优化算法。GSPO不仅理论上更严谨,实践中也表现更好:训练效率显著超越GRPO,并且彻底解决了MoE模型RL训练的不稳定性问题。GSPO已经是Qwen3模型背后的核心训练算法。

核心问题:GRPO的重要性采样为什么是错的?

token级 vs 序列级

重要性采样(Importance Sampling)是off-policy RL的基础工具。当我们用旧策略采集的数据来更新新策略时,需要用重要性权重来修正分布偏差。

GRPO继承了PPO的设计,在token级别定义重要性比率:

1
ratio_t = pi_new(token_t | context) / pi_old(token_t | context)

但这里有个关键问题:在LLM的自回归生成中,一个序列的概率是所有token概率的乘积。正确的序列级重要性比率应该是:

1
2
ratio_seq = pi_new(sequence) / pi_old(sequence)
= prod_t [pi_new(token_t | context) / pi_old(token_t | context)]

这不是简单的「token级ratio的平均」,而是「token级ratio的乘积」。

为什么这个错误很严重?

GRPO对每个token独立应用PPO的clipping机制,但token级ratio和序列级ratio之间没有单调关系:

  1. 方差爆炸:token级ratio的微小偏差在长序列中会被指数级放大
  2. 梯度噪声:错误的重要性权重引入高方差的训练噪声
  3. Clipping失效:token级clipping无法正确约束策略更新的幅度
  4. MoE灾难:在MoE模型中,专家路由的变化让token级ratio剧烈波动,直接导致训练崩溃

GSPO的核心设计

设计原则:回归序列级

GSPO的核心思想很简单:在序列级别定义重要性比率,在序列级别做clipping,在序列级别做优化

1. 序列级重要性比率

1
ratio = pi_theta(y|x) / pi_old(y|x)

其中y是完整的响应序列,x是输入prompt。

2. 序列级Clipping

1
L_GSPO = E[min(ratio * A, clip(ratio, 1-eps, 1+eps) * A)]

3. 序列级奖励:奖励信号直接作用于整个序列,不需要分配到每个token。

反直觉的发现:更多clipping反而更好

论文中最令人意外的发现是:GSPO裁剪的token比例比GRPO高两个数量级(约100倍),但训练效率反而更高。

这是因为:

  • GRPO的token级clipping看似保守,实际上无法真正约束序列级的策略偏移
  • GSPO的序列级clipping精准控制了策略更新的幅度
  • 少量高质量的梯度信号 > 大量带噪声的梯度信号

MoE稳定性:彻底解决路由震荡

MoE模型的RL训练一直是个难题。GRPO在MoE上的失败原因:训练更新后专家激活集合改变,token级ratio剧烈震荡,导致训练崩溃。之前的解决方案「Routing Replay」会限制模型的表达能力。

GSPO的解决方案更优雅:序列级似然对token级专家激活的变化具有鲁棒性,完全不需要Routing Replay。

技术对比

特性 PPO GRPO GSPO
Critic网络 需要 不需要 不需要
重要性比率 Token级 Token级 序列级
Clipping Token级 Token级 序列级
MoE支持 困难 非常困难 原生支持
Routing Replay N/A 需要 不需要
理论正确性 有缺陷
实际贡献 InstructGPT DeepSeek-R1 Qwen3

个人评价

这篇论文的贡献不在于提出一个全新的范式,而在于纠正了一个被广泛忽视的根本性错误。GSPO的修正简洁而优雅:回归重要性采样的正确定义——序列级。

GSPO已经在Qwen3中得到验证,这说明它不仅是理论上的改进,更是经过大规模实战检验的成熟方案。对于任何正在做LLM RL训练的团队,GSPO都应该成为首选算法。


评分: 4.5/5.0

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero