LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率

Posted on 八月 8, 2025

LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率 ArXiv ID: 2508.06412作者: Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian机构: Microsoft Research发布日期: 2025-08-08 摘要LLM 的后训练（RLHF、DPO 等）普遍面临低样本效率问题：每批数据只用一次就丢弃，导致数据利用率极低。如果尝试提高数据复用率，又会导致初始偏差（primacy bias）——模型过拟合早期经验，损害后续学习能力。本文提出的 LoRR（LLM optimization with Reset Replay）是一个通用插件，通过三个核心组件解决这个问题：高重放训练：每批数据复用多次（replay ratio 高达 3-10x）周期性重置：使用 Shrink & Perturb 策略定期重...

阅读全文

ZenFlow: DeepSpeed的无停顿卸载训练引擎，5倍加速ZeRO-Offload

Posted on 五月 18, 2025

ZenFlow: DeepSpeed的无停顿卸载训练引擎，5倍加速ZeRO-Offload ArXiv ID: 2505.12242作者: Tingfeng Lan, Yusen Wu, Bin Ma, Zhaoyuan Su, Rui Yang, Tekin Bicer, Masahiro Tanaka, Olatunji Ruwase, Dong Li, Yue Cheng机构: University of Virginia, UC Merced, Argonne National Laboratory, Microsoft DeepSpeed Team发布日期: 2025-05-18 GPU卸载的14倍减速困境当GPU显存不足以容纳整个模型时，将部分模型状态卸载到CPU内存是常见解决方案。但ZeRO-Offload的代价巨大——Llama 2-7B在4张A100上：无卸载每步...

阅读全文