LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率
ArXiv ID: 2508.06412作者: Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian机构: Microsoft Research发布日期: 2025-08-08
摘要LLM 的后训练(RLHF、DPO 等)普遍面临低样本效率问题:每批数据只用一次就丢弃,导致数据利用率极低。如果尝试提高数据复用率,又会导致初始偏差(primacy bias)——模型过拟合早期经验,损害后续学习能力。
本文提出的 LoRR(LLM optimization with Reset Replay) 是一个通用插件,通过三个核心组件解决这个问题:
高重放训练:每批数据复用多次(replay ratio 高达 3-10x)
周期性重置:使用 Shrink & Perturb 策略定期重...
基于大语言模型的少样本上下文偏好学习
基于大语言模型的少样本上下文偏好学习论文信息
标题: ICPL: Few-shot In-context Preference Learning via LLMs
作者: Chao Yu, Qixin Tan, Hong Lu, Jiaxuan Gao, Xinting Yang, Yu Wang, Yi Wu, Eugene Vinitsky
发布日期: 2024-10-22
ArXiv链接: https://arxiv.org/abs/2410.17233
核心概述基于偏好的强化学习是处理难以明确定义奖励函数任务的有效方法,但传统偏好学习往往需要从零开始,效率极低。本文展示了大语言模型(LLM)具有原生的偏好学习能力,可以实现高效的样本效率偏好学习,从而解决这一挑战。
主要贡献研究提出了ICPL(In-Context Preference Learning)框架,利用LLM...