Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution
ArXiv ID: 2601.20379
作者: Zhengbo Jiao, Hongyu Xian, Qinglong Wang, Yunpu Ma, Zhebo Wang, Zifan Zhang, Dezhang Kong, Meng Han
发布日期: 2026-01-28
内容级别: Deep Dive
摘要
现有测试时计算扩展方法将反馈仅作为外部过滤机制,无法真正改进模型的推理策略。本文提出思维策略(Policy of Thoughts, PoT),将推理重构为实例级在线优化过程。PoT通过蒙特卡洛树搜索(MCTS)生成多样候选解,然后利用群组相对策略优化(GRPO)更新瞬时LoRA适配器,实现测试时的实时策略进化。核心理念源自波普尔认识论:智能需要从失败中学习并动态精炼推理策略。
实验结果令人瞩目:仅4B参数的模型在LiveCodeBench上达到49.71%准确率,超越GPT-4o(49.75%整体)和DeepSeek-V3等50倍以上参数的商业模型。
主要贡献
- 提出将推理重构为闭环在线优化过程的PoT框架,实现测试时策略进化
- 结合MCTS探索与GRPO优化,通过瞬时LoRA适配器实现实时策略内化
- 4B模型在代码推理基准上超越50倍参数的商业模型(GPT-4o, DeepSeek-V3)
- 消融实验证明策略进化比纯搜索提升12.57pp,突破传统搜索的逻辑瓶颈
- 跨架构泛化验证:在Qwen3-1.7B和Phi-3-mini上均实现显著提升
方法详解:四阶段闭环优化
PoT将推理过程分为四个阶段,形成猜想-反驳-进化的闭环:
阶段一:问题初始化
为每个推理实例创建任务专属的瞬时LoRA适配器(phi_1),基础模型权重theta始终保持冻结。这一设计确保:
- 每个问题独立优化,避免跨任务干扰
- 基础模型能力不受影响(良性过拟合)
- 优化仅发生在低秩适配器的小参数空间内
阶段二:探索性猜想(TT – Thinking)
执行K次并行MCTS模拟,每步生成k=3个候选延续(分支因子):
- 使用PUCT选择公式平衡利用与探索
- 若任一模拟达到完美奖励(R(tau)=1.0)则提前终止
- 分支因子k=3为最优选择:k=1因对比样本不足准确率降至31.42%,k>=16仅有边际提升但延迟增加8-18倍
阶段三:执行反馈(EE – Environment Evaluation)
通过环境执行评估所有生成轨迹,基于测试用例分配奖励:
1 | def compute_reward(trajectory, test_cases): |
阶段四:策略内化(P2 – Policy Update)
相对优势估计(组内归一化):
1 | A_hat_i = clip((R(tau_i) - mean({R_j})) / max(std({R_j}), eta), -C_A, C_A) |
GRPO损失函数:
1 | L(phi) = (1/G) * sum_i[min(r_{i,j}(phi) * A_hat_i, clip(r_{i,j}, 1-eps, 1+eps) * A_hat_i) - beta * D_KL(pi_phi || pi_ref)] |
关键超参数配置:
- 学习率: 1e-4
- LoRA秩: r=8
- KL惩罚系数: beta=0.02
- 组大小: G=3
- PPO裁剪比: eps=0.3
以进化后策略为先验,重复上述循环,实现渐进式策略精炼。
实验结果
核心性能(Qwen3-4B基础模型)
| 基准 | PoT | 最佳基线 | 提升 |
|---|---|---|---|
| HumanEval | 98.78% | Best-of-N: 90.85% | +7.93pp |
| MBPP | 94.94% | LATS: 90.66% | +4.28pp |
| LiveCodeBench V5 | 57.49% | LATS: 47.51% | +9.98pp |
| LiveCodeBench V6 | 49.71% | RethinkMCTS: 44.12% | +5.59pp |
| ICPC | 19.18% | CodeT: 8.22% | +10.96pp |
| 总体 | 58.98% | Reflexion: 49.20% | +9.78pp |
超越商业模型
4B参数PoT解算器(参数量小50倍以上)超越多个商业模型:
| 模型 | 总体准确率 |
|---|---|
| GPT-4o | 49.75% |
| Claude-Opus-4 | 51.30% |
| DeepSeek-V3 | 50.55% |
| Gemini-2.5-Flash | 51.12% |
| Qwen3-4B + PoT | 58.98% |
关键消融:静态搜索 vs 自适应PoT
LiveCodeBench V6上的对比:
- 零样本基线: 27.43%
- 纯MCTS搜索(无策略更新): 37.14% (+9.71pp)
- PoT(MCTS + LoRA策略进化): 49.71% (+22.28pp)
12.57pp的差距明确证明:实时策略内化是PoT性能优势的核心来源,传统搜索方法达到逻辑瓶颈后无法继续提升,而策略进化能突破这一限制。
跨架构泛化
- Qwen3-1.7B: 零样本43.01% -> PoT 52.55% (+9.54pp)
- Phi-3-mini-4k: 零样本44.45% -> PoT 57.81% (+13.36pp)
技术洞察
- 良性过拟合现象: 瞬时LoRA在稀疏反馈下的密集更新不会导致灾难性遗忘,而是将过拟合引导至有益方向
- 环境反馈的关键作用: PoT在具有原生可执行反馈的任务(代码、形式证明)中表现最佳,暗示方法的适用边界
- 计算效率: 分支因子k=3时每迭代473.66ms,是质量与效率的最优平衡点
局限与展望
- 当前依赖环境可执行反馈,在开放式推理(如创意写作)中需要奖励模型替代
- 瞬时LoRA的跨实例知识迁移尚未探索
- 与更大基础模型结合的扩展效果有待验证