Anthropic HH-RLHF: 人类反馈偏好数据集

Posted on 十月 15, 2025

Anthropic HH-RLHF: 人类反馈偏好数据集数据集链接: HuggingFace核心论文: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (arXiv:2204.05862)许可证: MIT规模: 169K 偏好对核心观点HH-RLHF 是 RLHF 领域的”黄金标准”数据集，它证明了一件事——对齐不是玄学，而是可以通过结构化的人类偏好数据解决的工程问题。为什么这个数据集重要？在 ChatGPT 爆火之前，很少有人意识到 RLHF（人类反馈强化学习）的价值。OpenAI 用 InstructGPT 证明了它的有效性，而 Anthropic 用 HH-RLHF 把这套方法论开源出来，让所有人都能训练”有用且无害”的模型。这个数据集的...

阅读全文

MM-RLHF: 多模态大语言模型人类反馈对齐数据集

Posted on 十月 15, 2025

MM-RLHF：多模态RLHF的首个完整解决方案核心观点：GPT-4V、Claude-3、Gemini都在用RLHF对齐文本输出，但多模态输出怎么对齐？MM-RLHF用10维评估体系+批评型奖励模型，给出了第一个工业级的答案。文本RLHF已经成熟——Anthropic的HH-RLHF、OpenAI的InstructGPT都验证了方法的有效性。但多模态场景复杂得多：一张图片的描述是否”好”，不仅取决于语言质量，还要看视觉细节、空间关系、伦理安全。 MM-RLHF是第一个系统性解决这个问题的数据集，16,300条样本，10维评估，27个基准验证。为什么多模态RLHF比文本RLHF难得多文本RLHF的评估相对简单：有用性、无害性、诚实性。多模态场景要复杂一个数量级：视觉理解维度（这是文本RLHF没有的）：忠实性：描述是否准确对应图像内容？（最容易出幻觉的地方）视觉细节：是否捕捉...

阅读全文

DPO全景图：从理论到实践的完整指南

Posted on 七月 14, 2025

DPO全景图：从理论到实践的完整指南 ArXiv ID: 2410.15595作者: Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu机构: Zhejiang University发布日期: 2024-10-21最后更新: 2025-07-14 摘要在大语言模型（LLM）的训练旅程中，让模型”听懂人话”一直是个难题。传统的RLHF（基于人类反馈的强化学习）虽然效果不错，但就像用大炮打蚊子——复杂、昂贵、还容易翻车。你需要训练一个奖励模型（Reward Model），然后用PPO等强化学习算法反复迭代，整个过程既耗时又吃资源。 DPO（Direct Pref...

阅读全文

理解偏好学习中的性能差距:RLHF与DPO的二分法分析

Posted on 五月 26, 2025

Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO ArXiv ID: 2505.19770作者: Ruizhe Shi, Minhak Song, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du发布日期: 2025年5月26日最后更新: 2025年10月3日摘要本文对强化学习人类反馈(RLHF)和直接偏好优化(DPO)之间的性能差距进行了精细的理论分析。研究将性能差距分解为两个来源,并在精确优化和有限样本优化场景下进行分析。结果显示,根据模型误规范的类型,RLHF、DPO或在线DPO可能各自表现更优。值得注意的是,当奖励模型类和策略模型类同构且都存在误规范时,在线DPO可以同时优于RLHF和标准DPO。...

阅读全文

DPO遇见PPO:RLHF的强化令牌优化

Posted on 四月 29, 2025

DPO Meets PPO: Reinforced Token Optimization for RLHF ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang发布日期: 2025年4月29日最后更新: 2025年5月21日摘要在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,...

阅读全文

Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南

Posted on 四月 16, 2025

Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南 ArXiv ID: 2504.12501作者: Nathan Lambert机构: Independent Researcher发布日期: 2025-04-16 (最新更新: 2025-11-02)页数: 144页Web版本: rlhfbook.com 摘要这是一部全面覆盖**强化学习人类反馈(RLHF)**方法论的144页专著,为LLM对齐领域提供了迄今为止最系统的教学资源。作者Nathan Lambert以温和渐进的方式,从历史根源到实践部署,构建了完整的RLHF知识体系。本书不仅仅是技术手册,更是一座连接理论与实践的桥梁。它追溯RLHF在经济学(偏好理论)、哲学(价值对齐)和最优控制(强化学习)的跨学科根源,帮助读者理解”为什么RLHF有效”而非仅仅”如何使用...

阅读全文

DPO Meets PPO: Token级强化优化统一RLHF范式

Posted on 四月 29, 2024

DPO Meets PPO: Token级强化优化统一RLHF范式 ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng (Peking Univ) + Wei Xiong (Princeton) + Microsoft Research机构: Peking University, Princeton University, Microsoft Research发布日期: 2024-04-29 (最新更新: 2025-05-21)会议: ICML 2025代码: GitHub 核心创新这篇ICML 2025论文提出了Reinforced Token Optimization (RTO),首次成功将DPO和PPO两大RLHF范式统一。传统RLHF方法要么使用离线DPO(简单但性能有限),要么使用在线PPO(强大但复杂)...

阅读全文