Anthropic HH-RLHF: 人类反馈偏好数据集
数据集链接: HuggingFace核心论文: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (arXiv:2204.05862)许可证: MIT规模: 169K 偏好对
核心观点HH-RLHF 是 RLHF 领域的”黄金标准”数据集,它证明了一件事——对齐不是玄学,而是可以通过结构化的人类偏好数据解决的工程问题。
为什么这个数据集重要?在 ChatGPT 爆火之前,很少有人意识到 RLHF(人类反馈强化学习)的价值。OpenAI 用 InstructGPT 证明了它的有效性,而 Anthropic 用 HH-RLHF 把这套方法论开源出来,让所有人都能训练”有用且无害”的模型。
这个数据集的...
LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率
LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率
ArXiv ID: 2508.06412作者: Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian机构: Microsoft Research发布日期: 2025-08-08
摘要LLM 的后训练(RLHF、DPO 等)普遍面临低样本效率问题:每批数据只用一次就丢弃,导致数据利用率极低。如果尝试提高数据复用率,又会导致初始偏差(primacy bias)——模型过拟合早期经验,损害后续学习能力。
本文提出的 LoRR(LLM optimization with Reset Replay) 是一个通用插件,通过三个核心组件解决这个问题:
高重放训练:每批数据复用多次(replay ratio 高达 3-10x)
周期性重置:使用 Shrink & Perturb 策略定期重...
DPO全景图:从理论到实践的完整指南
DPO全景图:从理论到实践的完整指南
ArXiv ID: 2410.15595作者: Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu机构: Zhejiang University发布日期: 2024-10-21最后更新: 2025-07-14
摘要在大语言模型(LLM)的训练旅程中,让模型”听懂人话”一直是个难题。传统的RLHF(基于人类反馈的强化学习)虽然效果不错,但就像用大炮打蚊子——复杂、昂贵、还容易翻车。你需要训练一个奖励模型(Reward Model),然后用PPO等强化学习算法反复迭代,整个过程既耗时又吃资源。
DPO(Direct Pref...
理解偏好学习中的性能差距:RLHF与DPO的二分法分析
Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO
ArXiv ID: 2505.19770作者: Ruizhe Shi, Minhak Song, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du发布日期: 2025年5月26日最后更新: 2025年10月3日
摘要本文对强化学习人类反馈(RLHF)和直接偏好优化(DPO)之间的性能差距进行了精细的理论分析。研究将性能差距分解为两个来源,并在精确优化和有限样本优化场景下进行分析。结果显示,根据模型误规范的类型,RLHF、DPO或在线DPO可能各自表现更优。值得注意的是,当奖励模型类和策略模型类同构且都存在误规范时,在线DPO可以同时优于RLHF和标准DPO。...
DPO遇见PPO:RLHF的强化令牌优化
DPO Meets PPO: Reinforced Token Optimization for RLHF
ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang发布日期: 2025年4月29日最后更新: 2025年5月21日
摘要在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,...
Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南
Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南
ArXiv ID: 2504.12501作者: Nathan Lambert机构: Independent Researcher发布日期: 2025-04-16 (最新更新: 2025-11-02)页数: 144页Web版本: rlhfbook.com
摘要这是一部全面覆盖**强化学习人类反馈(RLHF)**方法论的144页专著,为LLM对齐领域提供了迄今为止最系统的教学资源。作者Nathan Lambert以温和渐进的方式,从历史根源到实践部署,构建了完整的RLHF知识体系。
本书不仅仅是技术手册,更是一座连接理论与实践的桥梁。它追溯RLHF在经济学(偏好理论)、哲学(价值对齐)和最优控制(强化学习)的跨学科根源,帮助读者理解”为什么RLHF有效”而非仅仅”如何使用...
直接偏好优化的主动学习
直接偏好优化的主动学习论文概述本文是一篇关于大语言模型的优化方法论文,由 B 等89位研究者共同完成。
研究目标本研究的主要目标包括:
适用于在线和离线设置的直接偏好优化新型主动学习框架
在神经网络最后一层线性化直接偏好优化目标以实现高效计算
采用 D-最优设计方法选择最具信息量的偏好反馈
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述该方法在神经网络表示的最后一层线性化直接偏好优化目标,使得能够计算偏好反馈收集的 D-最优设计。这个数学框架允许原则性地选择最具信息量的反馈对。对于在线设置,算法主动选择向人类评估者呈现哪...
Tulu 3: Allen AI的开源后训练数据全家桶
核心观点:后训练是当前LLM的核心竞争力,但多数开源项目只开放模型权重,训练数据和方法论仍然是黑箱。Allen AI的Tulu 3把后训练的全部秘密——数据、代码、方法论——一次性全部公开。
后训练的开源困境假设你拿到了一个不错的基座模型,想通过后训练让它变成一个好用的助手。你需要什么?
SFT数据:教模型按指令做事
偏好数据:教模型什么是好的回答
强化学习数据:在数学和代码等可验证任务上进一步优化
问题是,市面上大多数”开源”的对齐模型只公开了权重。你知道它表现好,但不知道是因为什么数据、什么配比、什么训练策略。想复现?几乎不可能。
Tulu 3彻底改变了这个局面。它不只是发布了数据集,而是发布了完整的后训练配方:数据集 + 数据混合策略 + 训练代码 + 评估工具。
SFT混合数据集:27.3万条的精细配比Tulu 3的SFT数据集不是简单地把公开数据集堆在一起。它是经过精心...
Chain of Preference Optimization: 用偏好学习蒸馏Tree-of-Thought推理能力
论文信息
标题: Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs
作者: Xuan Zhang, Chao Du, Tianyu Pang, Qian Liu, Wei Gao, Min Lin
机构: Sea AI Lab (SAIL), Nanyang Technological University
发表: NeurIPS 2024
链接: arXiv | GitHub | PDF
核心贡献CPO通过偏好优化将Tree-of-Thought的搜索能力蒸馏到Chain-of-Thought推理中,实现了在推理时无需树搜索开销的情况下,达到甚至超越ToT的性能。核心创新在于利用树搜索过程中的隐含偏好信息,训练模型对齐优质推理路径。
研究动机CoT的局限性Chain...
DPO Meets PPO: Token级强化优化统一RLHF范式
DPO Meets PPO: Token级强化优化统一RLHF范式
ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng (Peking Univ) + Wei Xiong (Princeton) + Microsoft Research机构: Peking University, Princeton University, Microsoft Research发布日期: 2024-04-29 (最新更新: 2025-05-21)会议: ICML 2025代码: GitHub
核心创新这篇ICML 2025论文提出了Reinforced Token Optimization (RTO),首次成功将DPO和PPO两大RLHF范式统一。传统RLHF方法要么使用离线DPO(简单但性能有限),要么使用在线PPO(强大但复杂)...