GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练

Posted on 八月 5, 2025

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练 ArXiv ID: 2508.03772作者: Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino, Paolo Mori机构: IIT-CNR (Italian National Research Council)发布日期: 2025-08-05 摘要GRPO（Group Relative Policy Optimization）在 LLM 对齐训练中越来越流行，但存在两个严重稳定性问题：Token 级惩罚导致梯度冲突和策略崩溃。本文提出的 GTPO（Gradient-corrected and Threshold-filtered Policy Optimization）通过冲突感知梯度修正和熵阈值过滤解决这些问题。在数学推理基准上，GT...

阅读全文

GSPO: Qwen团队用序列级优化重新定义GRPO，MoE训练终于稳了

Posted on 七月 24, 2025

GSPO: Qwen团队用序列级优化重新定义GRPO，MoE训练终于稳了 ArXiv ID: 2507.18071作者: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin机构: Alibaba Group (Qwen Team)发布日期: 2025-07-24 引言：GRPO的致命缺陷GRPO（Group Relative Policy Optimization）自DeepSeek-R1发布以来，已经成为LLM强化学习训练的事实标准。它去掉了PPO中昂贵的Critic网络，用组内相对奖励来估计优势值，大幅降低了计算成本。但GRPO有一个被广泛忽视的根本...

阅读全文