Anthropic HH-RLHF: 人类反馈偏好数据集

Posted on 十月 15, 2025

核心观点：HH-RLHF是RLHF领域的”黄金标准”数据集，它证明了一件事——对齐不是玄学，而是可以通过结构化的人类偏好数据解决的工程问题。为什么这个数据集重要？在ChatGPT爆火之前，很少有人意识到RLHF（人类反馈强化学习）的价值。OpenAI用InstructGPT证明了它的有效性，而Anthropic用HH-RLHF把这套方法论开源出来，让所有人都能训练”有用且无害”的模型。这个数据集的核心价值不在于16.9万条样本的规模——这个数量甚至称不上大。它的价值在于清晰的标注哲学：将对齐拆解为Helpfulness（有用性）和Harmlessness（无害性）两个维度，并用简洁的偏好对格式表达人类判断。这种设计让研究者可以分别优化这两个目标，或者在实际应用中灵活权衡。对比其他偏好数据集，HH-RLHF的标注质量更稳定、任务定义更清晰。这也是为什么它成为了RLHF研究的事实标...

阅读全文

面向长期LLM代理的偏好感知记忆更新

Posted on 十月 10, 2025

面向长期LLM代理的偏好感知记忆更新论文信息标题: Preference-Aware Memory Update for Long-Term LLM Agents 作者: Haoran Sun, Zekun Zhang, Shaoning Zeng 发布日期: 2025-10-10 ArXiv链接: https://arxiv.org/abs/2510.09720 核心概述影响基于LLM代理推理能力的关键因素之一是其利用长期记忆的能力。集成长期记忆机制使代理能够基于历史交互做出明智决策。虽然最近的进展显著改进了存储和检索组件,通过将记忆编码为密集向量进行相似性搜索或组织为结构化知识图谱,但大多数现有方法在记忆更新方面存在不足。特别是,它们缺乏根据不断演变的用户行为和上下文动态优化偏好记忆表示的机制。为了解决这一差距,本文提出了偏好感知记忆更新机制(PAMU),实现动态和个性化的...

阅读全文

基于大语言模型的少样本上下文偏好学习

Posted on 十月 22, 2024

基于大语言模型的少样本上下文偏好学习论文信息标题: ICPL: Few-shot In-context Preference Learning via LLMs 作者: Chao Yu, Qixin Tan, Hong Lu, Jiaxuan Gao, Xinting Yang, Yu Wang, Yi Wu, Eugene Vinitsky 发布日期: 2024-10-22 ArXiv链接: https://arxiv.org/abs/2410.17233 核心概述基于偏好的强化学习是处理难以明确定义奖励函数任务的有效方法,但传统偏好学习往往需要从零开始,效率极低。本文展示了大语言模型(LLM)具有原生的偏好学习能力,可以实现高效的样本效率偏好学习,从而解决这一挑战。主要贡献研究提出了ICPL(In-Context Preference Learning)框架,利用LLM...

阅读全文