GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练 ArXiv ID: 2508.03772作者: Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino, Paolo Mori机构: IIT-CNR (Italian National Research Council)发布日期: 2025-08-05 摘要GRPO(Group Relative Policy Optimization)在 LLM 对齐训练中越来越流行,但存在两个严重稳定性问题:Token 级惩罚导致梯度冲突和策略崩溃。本文提出的 GTPO(Gradient-corrected and Threshold-filtered Policy Optimization)通过冲突感知梯度修正和熵阈值过滤解决这些问题。在数学推理基准上,GT...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero