Anthropic HH-RLHF: 人类反馈偏好数据集

Anthropic HH-RLHF: 人类反馈偏好数据集 数据集链接: HuggingFace核心论文: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (arXiv:2204.05862)许可证: MIT规模: 169K 偏好对 核心观点HH-RLHF 是 RLHF 领域的”黄金标准”数据集,它证明了一件事——对齐不是玄学,而是可以通过结构化的人类偏好数据解决的工程问题。 为什么这个数据集重要?在 ChatGPT 爆火之前,很少有人意识到 RLHF(人类反馈强化学习)的价值。OpenAI 用 InstructGPT 证明了它的有效性,而 Anthropic 用 HH-RLHF 把这套方法论开源出来,让所有人都能训练”有用且无害”的模型。 这个数据集的...

阅读全文

面向长期 LLM 代理的偏好感知记忆更新

面向长期 LLM 代理的偏好感知记忆更新 ArXiv ID: 2510.09720作者: Haoran Sun, Zekun Zhang, Shaoning Zeng机构: Hong Kong Polytechnic University发布日期: 2025-10-10 摘要影响基于 LLM 代理推理能力的关键因素之一是其利用长期记忆的能力。虽然最近的进展显著改进了存储和检索组件,但大多数现有方法在记忆更新方面存在不足——缺乏根据不断演变的用户行为和上下文动态优化偏好记忆表示的机制。本文提出 PAMU(Preference-Aware Memory Update),通过整合滑动窗口平均(SW)和指数移动平均(EMA),构建融合的偏好感知表示。在 LoCoMo 数据集上,PAMU 在五个任务场景中准确率提升15-25%。 问题背景长期代理中的记忆挑战123456789101112...

阅读全文

Tulu 3: Allen AI的开源后训练数据全家桶

核心观点:后训练是当前LLM的核心竞争力,但多数开源项目只开放模型权重,训练数据和方法论仍然是黑箱。Allen AI的Tulu 3把后训练的全部秘密——数据、代码、方法论——一次性全部公开。 后训练的开源困境假设你拿到了一个不错的基座模型,想通过后训练让它变成一个好用的助手。你需要什么? SFT数据:教模型按指令做事 偏好数据:教模型什么是好的回答 强化学习数据:在数学和代码等可验证任务上进一步优化 问题是,市面上大多数”开源”的对齐模型只公开了权重。你知道它表现好,但不知道是因为什么数据、什么配比、什么训练策略。想复现?几乎不可能。 Tulu 3彻底改变了这个局面。它不只是发布了数据集,而是发布了完整的后训练配方:数据集 + 数据混合策略 + 训练代码 + 评估工具。 SFT混合数据集:27.3万条的精细配比Tulu 3的SFT数据集不是简单地把公开数据集堆在一起。它是经过精心...

阅读全文

基于大语言模型的少样本上下文偏好学习

基于大语言模型的少样本上下文偏好学习论文信息 标题: ICPL: Few-shot In-context Preference Learning via LLMs 作者: Chao Yu, Qixin Tan, Hong Lu, Jiaxuan Gao, Xinting Yang, Yu Wang, Yi Wu, Eugene Vinitsky 发布日期: 2024-10-22 ArXiv链接: https://arxiv.org/abs/2410.17233 核心概述基于偏好的强化学习是处理难以明确定义奖励函数任务的有效方法,但传统偏好学习往往需要从零开始,效率极低。本文展示了大语言模型(LLM)具有原生的偏好学习能力,可以实现高效的样本效率偏好学习,从而解决这一挑战。 主要贡献研究提出了ICPL(In-Context Preference Learning)框架,利用LLM...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero