MOSS: 用微缩放和自动缩放实现无损 FP8 训练，OLMo-7B 加速 34%

Posted on 十一月 8, 2025

MOSS: 用微缩放和自动缩放实现无损 FP8 训练，OLMo-7B 加速 34% ArXiv ID: 2511.05811作者: Yu Zhang, Hui-Ling Zhen, Mingxuan Yuan, Bei Yu机构: The Chinese University of Hong Kong, Huawei Noah’s Ark Lab发布日期: 2025-11-08 FP8 训练的理想与现实FP8 训练的潜力12345678910FP8 vs BF16 理论对比：指标 | BF16 | FP8 | 提升--------------|-------|-------|------计算密度 | 128 | 256 | 2x内存占用 | 100% | 50% | 50%↓通信开销 | 100% | 25-5...

阅读全文

LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率

Posted on 八月 8, 2025

LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率 ArXiv ID: 2508.06412作者: Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian机构: Microsoft Research发布日期: 2025-08-08 摘要LLM 的后训练（RLHF、DPO 等）普遍面临低样本效率问题：每批数据只用一次就丢弃，导致数据利用率极低。如果尝试提高数据复用率，又会导致初始偏差（primacy bias）——模型过拟合早期经验，损害后续学习能力。本文提出的 LoRR（LLM optimization with Reset Replay）是一个通用插件，通过三个核心组件解决这个问题：高重放训练：每批数据复用多次（replay ratio 高达 3-10x）周期性重置：使用 Shrink & Perturb 策略定期重...

阅读全文

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练

Posted on 八月 5, 2025

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练 ArXiv ID: 2508.03772作者: Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino, Paolo Mori机构: IIT-CNR (Italian National Research Council)发布日期: 2025-08-05 摘要GRPO（Group Relative Policy Optimization）在 LLM 对齐训练中越来越流行，但存在两个严重稳定性问题：Token 级惩罚导致梯度冲突和策略崩溃。本文提出的 GTPO（Gradient-corrected and Threshold-filtered Policy Optimization）通过冲突感知梯度修正和熵阈值过滤解决这些问题。在数学推理基准上，GT...

阅读全文