LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率

LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率 ArXiv ID: 2508.06412作者: Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian机构: Microsoft Research发布日期: 2025-08-08 摘要LLM 的后训练(RLHF、DPO 等)普遍面临低样本效率问题:每批数据只用一次就丢弃,导致数据利用率极低。如果尝试提高数据复用率,又会导致初始偏差(primacy bias)——模型过拟合早期经验,损害后续学习能力。 本文提出的 LoRR(LLM optimization with Reset Replay) 是一个通用插件,通过三个核心组件解决这个问题: 高重放训练:每批数据复用多次(replay ratio 高达 3-10x) 周期性重置:使用 Shrink & Perturb 策略定期重...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero