Anthropic HH-RLHF: 人类反馈偏好数据集

Posted on 十月 15, 2025

Anthropic HH-RLHF: 人类反馈偏好数据集数据集链接: HuggingFace核心论文: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (arXiv:2204.05862)许可证: MIT规模: 169K 偏好对核心观点HH-RLHF 是 RLHF 领域的”黄金标准”数据集，它证明了一件事——对齐不是玄学，而是可以通过结构化的人类偏好数据解决的工程问题。为什么这个数据集重要？在 ChatGPT 爆火之前，很少有人意识到 RLHF（人类反馈强化学习）的价值。OpenAI 用 InstructGPT 证明了它的有效性，而 Anthropic 用 HH-RLHF 把这套方法论开源出来，让所有人都能训练”有用且无害”的模型。这个数据集的...

阅读全文

DPO遇见PPO:RLHF的强化令牌优化

Posted on 四月 29, 2025

DPO Meets PPO: Reinforced Token Optimization for RLHF ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang发布日期: 2025年4月29日最后更新: 2025年5月21日摘要在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,...

阅读全文

Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南

Posted on 四月 16, 2025

Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南 ArXiv ID: 2504.12501作者: Nathan Lambert机构: Independent Researcher发布日期: 2025-04-16 (最新更新: 2025-11-02)页数: 144页Web版本: rlhfbook.com 摘要这是一部全面覆盖**强化学习人类反馈(RLHF)**方法论的144页专著,为LLM对齐领域提供了迄今为止最系统的教学资源。作者Nathan Lambert以温和渐进的方式,从历史根源到实践部署,构建了完整的RLHF知识体系。本书不仅仅是技术手册,更是一座连接理论与实践的桥梁。它追溯RLHF在经济学(偏好理论)、哲学(价值对齐)和最优控制(强化学习)的跨学科根源,帮助读者理解”为什么RLHF有效”而非仅仅”如何使用...

阅读全文

DPO Meets PPO: Token级强化优化统一RLHF范式

Posted on 四月 29, 2024

DPO Meets PPO: Token级强化优化统一RLHF范式 ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng (Peking Univ) + Wei Xiong (Princeton) + Microsoft Research机构: Peking University, Princeton University, Microsoft Research发布日期: 2024-04-29 (最新更新: 2025-05-21)会议: ICML 2025代码: GitHub 核心创新这篇ICML 2025论文提出了Reinforced Token Optimization (RTO),首次成功将DPO和PPO两大RLHF范式统一。传统RLHF方法要么使用离线DPO(简单但性能有限),要么使用在线PPO(强大但复杂)...

阅读全文