Anthropic HH-RLHF: 人类反馈偏好数据集

Anthropic HH-RLHF: 人类反馈偏好数据集 数据集链接: HuggingFace核心论文: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (arXiv:2204.05862)许可证: MIT规模: 169K 偏好对 核心观点HH-RLHF 是 RLHF 领域的”黄金标准”数据集,它证明了一件事——对齐不是玄学,而是可以通过结构化的人类偏好数据解决的工程问题。 为什么这个数据集重要?在 ChatGPT 爆火之前,很少有人意识到 RLHF(人类反馈强化学习)的价值。OpenAI 用 InstructGPT 证明了它的有效性,而 Anthropic 用 HH-RLHF 把这套方法论开源出来,让所有人都能训练”有用且无害”的模型。 这个数据集的...

阅读全文

MM-RLHF: 多模态大语言模型人类反馈对齐数据集

MM-RLHF:多模态RLHF的首个完整解决方案核心观点:GPT-4V、Claude-3、Gemini都在用RLHF对齐文本输出,但多模态输出怎么对齐?MM-RLHF用10维评估体系+批评型奖励模型,给出了第一个工业级的答案。 文本RLHF已经成熟——Anthropic的HH-RLHF、OpenAI的InstructGPT都验证了方法的有效性。但多模态场景复杂得多:一张图片的描述是否”好”,不仅取决于语言质量,还要看视觉细节、空间关系、伦理安全。 MM-RLHF是第一个系统性解决这个问题的数据集,16,300条样本,10维评估,27个基准验证。 为什么多模态RLHF比文本RLHF难得多文本RLHF的评估相对简单:有用性、无害性、诚实性。多模态场景要复杂一个数量级: 视觉理解维度(这是文本RLHF没有的): 忠实性:描述是否准确对应图像内容?(最容易出幻觉的地方) 视觉细节:是否捕捉...

阅读全文

DPO全景图:从理论到实践的完整指南

DPO全景图:从理论到实践的完整指南 ArXiv ID: 2410.15595作者: Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu机构: Zhejiang University发布日期: 2024-10-21最后更新: 2025-07-14 摘要在大语言模型(LLM)的训练旅程中,让模型”听懂人话”一直是个难题。传统的RLHF(基于人类反馈的强化学习)虽然效果不错,但就像用大炮打蚊子——复杂、昂贵、还容易翻车。你需要训练一个奖励模型(Reward Model),然后用PPO等强化学习算法反复迭代,整个过程既耗时又吃资源。 DPO(Direct Pref...

阅读全文

理解偏好学习中的性能差距:RLHF与DPO的二分法分析

Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO ArXiv ID: 2505.19770作者: Ruizhe Shi, Minhak Song, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du发布日期: 2025年5月26日最后更新: 2025年10月3日 摘要本文对强化学习人类反馈(RLHF)和直接偏好优化(DPO)之间的性能差距进行了精细的理论分析。研究将性能差距分解为两个来源,并在精确优化和有限样本优化场景下进行分析。结果显示,根据模型误规范的类型,RLHF、DPO或在线DPO可能各自表现更优。值得注意的是,当奖励模型类和策略模型类同构且都存在误规范时,在线DPO可以同时优于RLHF和标准DPO。...

阅读全文

DPO遇见PPO:RLHF的强化令牌优化

DPO Meets PPO: Reinforced Token Optimization for RLHF ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang发布日期: 2025年4月29日最后更新: 2025年5月21日 摘要在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,...

阅读全文

Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南

Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南 ArXiv ID: 2504.12501作者: Nathan Lambert机构: Independent Researcher发布日期: 2025-04-16 (最新更新: 2025-11-02)页数: 144页Web版本: rlhfbook.com 摘要这是一部全面覆盖**强化学习人类反馈(RLHF)**方法论的144页专著,为LLM对齐领域提供了迄今为止最系统的教学资源。作者Nathan Lambert以温和渐进的方式,从历史根源到实践部署,构建了完整的RLHF知识体系。 本书不仅仅是技术手册,更是一座连接理论与实践的桥梁。它追溯RLHF在经济学(偏好理论)、哲学(价值对齐)和最优控制(强化学习)的跨学科根源,帮助读者理解”为什么RLHF有效”而非仅仅”如何使用...

阅读全文

DPO Meets PPO: Token级强化优化统一RLHF范式

DPO Meets PPO: Token级强化优化统一RLHF范式 ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng (Peking Univ) + Wei Xiong (Princeton) + Microsoft Research机构: Peking University, Princeton University, Microsoft Research发布日期: 2024-04-29 (最新更新: 2025-05-21)会议: ICML 2025代码: GitHub 核心创新这篇ICML 2025论文提出了Reinforced Token Optimization (RTO),首次成功将DPO和PPO两大RLHF范式统一。传统RLHF方法要么使用离线DPO(简单但性能有限),要么使用在线PPO(强大但复杂)...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero