Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution
ArXiv ID: 2601.20379作者: Zhengbo Jiao, Hongyu Xian, Qinglong Wang, Yunpu Ma, Zhebo Wang, Zifan Zhang, Dezhang Kong, Meng Han发布日期: 2026-01-28内容级别: Deep Dive
摘要现有测试时计算扩展方法将反馈仅作为外部过滤机制,无法真正改进模型的推理策略。本文提出思维策略(Policy of Thoughts, PoT),将推理重构为实例级在线优化过程。PoT通过蒙特卡洛树搜索(MCTS)生成多样候选解,然后利用群组相对策略优化(GRPO)更新瞬时LoRA适配器,实现测试时的实时策略进化。核心理念源自波普尔...
更宽还是更深?通过自适应分支树搜索扩展 LLM 推理时计算
更宽还是更深?通过自适应分支树搜索扩展 LLM 推理时计算
ArXiv ID: 2503.04412作者: Yuichi Inoue, Kou Misaki, Yuki Imajuku, So Kuroki, Taishi Nakamura, Takuya Akiba机构: Preferred Networks发布日期: 2025-03-06接收: ICLR 2025 Workshop, NeurIPS 2025 Spotlight
摘要在 LLM 推理时扩展(test-time scaling)中,一个核心问题是:应该探索更多不同的回答(更宽),还是深入改进已有回答(更深)?本文提出的 AB-MCTS(Adaptive Branching MCTS) 框架通过自适应地平衡这两种策略,在编码任务上显著优于重复采样和标准 MCTS 方法。
核心问题推理时扩展的两难选择123456...
通过自动化过程监督改进语言模型的数学推理能力
通过自动化过程监督改进语言模型的数学推理能力论文概述本文是一篇关于推理能力的研究论文,由 Liangchen Luo 等11位研究者共同完成。
这篇 Google Research 论文介绍了 OmegaPRM,一种新颖的蒙特卡洛树搜索(MCTS)算法,无需人工标注即可自动收集高质量的过程监督数据用于训练过程奖励模型(PRM)。与仅验证最终答案的结果奖励模型不同,OmegaPRM 通过使用分治算法识别推理链中的第一个错误来提供步骤级监督。收集了超过150万个过程监督标注后,生成的 PRM 显著改进了数学推理:Gemini Pro 在 MATH500 上的准确率从51%提升到69.4%(18.4个百分点),Gemma2 27B 在 MATH500 上从42.3%提升到58.2%。该工作发表于2024年6月,证明自动化过程监督可以以极低的成本匹配或超越人工标注质量,使过程奖励模型能够大规...