Anthropic HH-RLHF: 人类反馈偏好数据集

Posted on 十月 15, 2025

Anthropic HH-RLHF: 人类反馈偏好数据集数据集链接: HuggingFace核心论文: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (arXiv:2204.05862)许可证: MIT规模: 169K 偏好对核心观点HH-RLHF 是 RLHF 领域的”黄金标准”数据集，它证明了一件事——对齐不是玄学，而是可以通过结构化的人类偏好数据解决的工程问题。为什么这个数据集重要？在 ChatGPT 爆火之前，很少有人意识到 RLHF（人类反馈强化学习）的价值。OpenAI 用 InstructGPT 证明了它的有效性，而 Anthropic 用 HH-RLHF 把这套方法论开源出来，让所有人都能训练”有用且无害”的模型。这个数据集的...

阅读全文

LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率

Posted on 八月 8, 2025

LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率 ArXiv ID: 2508.06412作者: Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian机构: Microsoft Research发布日期: 2025-08-08 摘要LLM 的后训练（RLHF、DPO 等）普遍面临低样本效率问题：每批数据只用一次就丢弃，导致数据利用率极低。如果尝试提高数据复用率，又会导致初始偏差（primacy bias）——模型过拟合早期经验，损害后续学习能力。本文提出的 LoRR（LLM optimization with Reset Replay）是一个通用插件，通过三个核心组件解决这个问题：高重放训练：每批数据复用多次（replay ratio 高达 3-10x）周期性重置：使用 Shrink & Perturb 策略定期重...

阅读全文

DPO全景图：从理论到实践的完整指南

Posted on 七月 14, 2025

DPO全景图：从理论到实践的完整指南 ArXiv ID: 2410.15595作者: Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu机构: Zhejiang University发布日期: 2024-10-21最后更新: 2025-07-14 摘要在大语言模型（LLM）的训练旅程中，让模型”听懂人话”一直是个难题。传统的RLHF（基于人类反馈的强化学习）虽然效果不错，但就像用大炮打蚊子——复杂、昂贵、还容易翻车。你需要训练一个奖励模型（Reward Model），然后用PPO等强化学习算法反复迭代，整个过程既耗时又吃资源。 DPO（Direct Pref...

阅读全文

理解偏好学习中的性能差距:RLHF与DPO的二分法分析

Posted on 五月 26, 2025

Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO ArXiv ID: 2505.19770作者: Ruizhe Shi, Minhak Song, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du发布日期: 2025年5月26日最后更新: 2025年10月3日摘要本文对强化学习人类反馈(RLHF)和直接偏好优化(DPO)之间的性能差距进行了精细的理论分析。研究将性能差距分解为两个来源,并在精确优化和有限样本优化场景下进行分析。结果显示,根据模型误规范的类型,RLHF、DPO或在线DPO可能各自表现更优。值得注意的是,当奖励模型类和策略模型类同构且都存在误规范时,在线DPO可以同时优于RLHF和标准DPO。...

阅读全文

DPO遇见PPO:RLHF的强化令牌优化

Posted on 四月 29, 2025

DPO Meets PPO: Reinforced Token Optimization for RLHF ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang发布日期: 2025年4月29日最后更新: 2025年5月21日摘要在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,...

阅读全文

Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南

Posted on 四月 16, 2025

Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南 ArXiv ID: 2504.12501作者: Nathan Lambert机构: Independent Researcher发布日期: 2025-04-16 (最新更新: 2025-11-02)页数: 144页Web版本: rlhfbook.com 摘要这是一部全面覆盖**强化学习人类反馈(RLHF)**方法论的144页专著,为LLM对齐领域提供了迄今为止最系统的教学资源。作者Nathan Lambert以温和渐进的方式,从历史根源到实践部署,构建了完整的RLHF知识体系。本书不仅仅是技术手册,更是一座连接理论与实践的桥梁。它追溯RLHF在经济学(偏好理论)、哲学(价值对齐)和最优控制(强化学习)的跨学科根源,帮助读者理解”为什么RLHF有效”而非仅仅”如何使用...

阅读全文

直接偏好优化的主动学习

Posted on 三月 3, 2025

直接偏好优化的主动学习论文概述本文是一篇关于大语言模型的优化方法论文，由 B 等89位研究者共同完成。研究目标本研究的主要目标包括：适用于在线和离线设置的直接偏好优化新型主动学习框架在神经网络最后一层线性化直接偏好优化目标以实现高效计算采用 D-最优设计方法选择最具信息量的偏好反馈研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述该方法在神经网络表示的最后一层线性化直接偏好优化目标，使得能够计算偏好反馈收集的 D-最优设计。这个数学框架允许原则性地选择最具信息量的反馈对。对于在线设置，算法主动选择向人类评估者呈现哪...

阅读全文

Tulu 3: Allen AI的开源后训练数据全家桶

Posted on 十一月 22, 2024

核心观点：后训练是当前LLM的核心竞争力，但多数开源项目只开放模型权重，训练数据和方法论仍然是黑箱。Allen AI的Tulu 3把后训练的全部秘密——数据、代码、方法论——一次性全部公开。后训练的开源困境假设你拿到了一个不错的基座模型，想通过后训练让它变成一个好用的助手。你需要什么？ SFT数据：教模型按指令做事偏好数据：教模型什么是好的回答强化学习数据：在数学和代码等可验证任务上进一步优化问题是，市面上大多数”开源”的对齐模型只公开了权重。你知道它表现好，但不知道是因为什么数据、什么配比、什么训练策略。想复现？几乎不可能。 Tulu 3彻底改变了这个局面。它不只是发布了数据集，而是发布了完整的后训练配方：数据集 + 数据混合策略 + 训练代码 + 评估工具。 SFT混合数据集：27.3万条的精细配比Tulu 3的SFT数据集不是简单地把公开数据集堆在一起。它是经过精心...

阅读全文

Chain of Preference Optimization: 用偏好学习蒸馏Tree-of-Thought推理能力

Posted on 六月 13, 2024

论文信息标题: Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs 作者: Xuan Zhang, Chao Du, Tianyu Pang, Qian Liu, Wei Gao, Min Lin 机构: Sea AI Lab (SAIL), Nanyang Technological University 发表: NeurIPS 2024 链接: arXiv | GitHub | PDF 核心贡献CPO通过偏好优化将Tree-of-Thought的搜索能力蒸馏到Chain-of-Thought推理中，实现了在推理时无需树搜索开销的情况下，达到甚至超越ToT的性能。核心创新在于利用树搜索过程中的隐含偏好信息，训练模型对齐优质推理路径。研究动机CoT的局限性Chain...

阅读全文

DPO Meets PPO: Token级强化优化统一RLHF范式

Posted on 四月 29, 2024

DPO Meets PPO: Token级强化优化统一RLHF范式 ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng (Peking Univ) + Wei Xiong (Princeton) + Microsoft Research机构: Peking University, Princeton University, Microsoft Research发布日期: 2024-04-29 (最新更新: 2025-05-21)会议: ICML 2025代码: GitHub 核心创新这篇ICML 2025论文提出了Reinforced Token Optimization (RTO),首次成功将DPO和PPO两大RLHF范式统一。传统RLHF方法要么使用离线DPO(简单但性能有限),要么使用在线PPO(强大但复杂)...

阅读全文