数学推理中开发过程奖励模型的经验教训

Posted on 一月 13, 2025

The Lessons of Developing Process Reward Models in Mathematical 推理论文概述本文是一篇关于推理能力的研究论文，由 Zhenru Zhang 等9位研究者共同完成。 This work from Alibaba provides critical insights into developing effective Process Reward Models (过程奖励模型s) for mathematical 推理 in 大型语言模型 (LLM)s. Through extensive experiments, it identifies key challenges in data annotation and evaluation, demonstrating that Monte Carlo estimation ...

阅读全文

过程奖励模型综述：从结果信号到大语言模型的过程监督

Posted on 十月 9, 2024

过程奖励模型综述：从结果信号到大语言模型的过程监督论文概述本文是一篇关于奖励模型的综述性研究论文，由 Congming Zheng 等3位研究者共同完成。这篇综合性综述系统性地回顾了过程奖励模型（Process Reward Models，PRM），这是一种新兴范式，在步骤或轨迹级别而非仅在最终结果上评估和引导大语言模型推理。与仅评估最终答案的传统结果奖励模型（ORM）不同，过程奖励模型在整个推理过程中提供细粒度监督，能够更好地对齐复杂的多步骤任务。该综述涵盖了完整的过程奖励模型生命周期：(1) 通过人工标注、蒙特卡洛采样或大语言模型评判生成过程级监督数据，(2) 构建过程奖励模型架构（判别式 vs 生成式），(3) 将过程奖励模型应用于测试时扩展（通过最优N选择和搜索），(4) 在强化学习中使用过程奖励模型进行策略优化。该综述发表于2024年10月，及时地解决了在o1类推理模型时...

阅读全文

通过自动化过程监督改进语言模型的数学推理能力

Posted on 六月 10, 2024

通过自动化过程监督改进语言模型的数学推理能力论文概述本文是一篇关于推理能力的研究论文，由 Liangchen Luo 等11位研究者共同完成。这篇 Google Research 论文介绍了 OmegaPRM,一种新颖的蒙特卡洛树搜索(MCTS)算法,无需人工标注即可自动收集高质量的过程监督数据用于训练过程奖励模型(PRM)。与仅验证最终答案的结果奖励模型不同,OmegaPRM 通过使用分治算法识别推理链中的第一个错误来提供步骤级监督。收集了超过150万个过程监督标注后,生成的 PRM 显著改进了数学推理:Gemini Pro 在 MATH500 上的准确率从51%提升到69.4%(18.4个百分点),Gemma2 27B 在 MATH500 上从42.3%提升到58.2%。该工作发表于2024年6月,证明自动化过程监督可以以极低的成本匹配或超越人工标注质量,使过程奖励模型能够大规...

阅读全文