过程奖励模型综述：从结果信号到大语言模型的过程监督

Posted on 十月 9, 2024

过程奖励模型综述：从结果信号到大语言模型的过程监督论文概述本文是一篇关于奖励模型的综述性研究论文，由 Congming Zheng 等3位研究者共同完成。这篇综合性综述系统性地回顾了过程奖励模型（Process Reward Models，PRM），这是一种新兴范式，在步骤或轨迹级别而非仅在最终结果上评估和引导大语言模型推理。与仅评估最终答案的传统结果奖励模型（ORM）不同，过程奖励模型在整个推理过程中提供细粒度监督，能够更好地对齐复杂的多步骤任务。该综述涵盖了完整的过程奖励模型生命周期：(1) 通过人工标注、蒙特卡洛采样或大语言模型评判生成过程级监督数据，(2) 构建过程奖励模型架构（判别式 vs 生成式），(3) 将过程奖励模型应用于测试时扩展（通过最优N选择和搜索），(4) 在强化学习中使用过程奖励模型进行策略优化。该综述发表于2024年10月，及时地解决了在o1类推理模型时...

阅读全文