Anthropic HH-RLHF: 人类反馈偏好数据集
数据集链接: HuggingFace核心论文: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (arXiv:2204.05862)许可证: MIT规模: 169K 偏好对
核心观点HH-RLHF 是 RLHF 领域的”黄金标准”数据集,它证明了一件事——对齐不是玄学,而是可以通过结构化的人类偏好数据解决的工程问题。
为什么这个数据集重要?在 ChatGPT 爆火之前,很少有人意识到 RLHF(人类反馈强化学习)的价值。OpenAI 用 InstructGPT 证明了它的有效性,而 Anthropic 用 HH-RLHF 把这套方法论开源出来,让所有人都能训练”有用且无害”的模型。
这个数据集的...
面向连续空间推理的推理时扩展
面向连续空间推理的推理时扩展
ArXiv ID: 2510.12167作者: Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari机构: Monash University, University of Melbourne发布日期: 2025-10-14
摘要通过结合过程或结果奖励模型(PRM 或 ORM)重排序的多样本生成,推理时扩展已被证明对大型语言模型的文本推理有效。本文研究是否可以将这些成熟技术成功应用于连续空间推理。使用 COCONUT 连续空间推理语言模型作为骨干,研究系统评估了推理时扩展技术在科学计算、物理模拟和几何问题求解中的表现。改进的推理时扩展方法可以将准确率提升20-35%。
问题背景连续空间推理 vs 离散文本推理1234567891011121314离散文本推理(如数学证明):&...
RSD: 奖励引导的推测解码实现高效 LLM 推理
RSD: 奖励引导的推测解码实现高效 LLM 推理
ArXiv ID: 2501.19324作者: Baohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong发布日期: 2025-01-31分类: inference, speculative-decoding, reasoning
摘要论文提出 Reward-Guided Speculative Decoding (RSD),一种结合轻量级 draft 模型和强大 target 模型的高效推理框架。不同于传统推测解码严格保证无偏性,RSD 引入可控偏置来优先选择高奖励输出。通过 process reward model 评估中间解码步骤,动态决定何时调用 target 模型,实现计算...