思维策略(PoT):通过测试时策略进化扩展LLM推理 -- 4B模型超越GPT-4o

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

ArXiv ID: 2601.20379
作者: Zhengbo Jiao, Hongyu Xian, Qinglong Wang, Yunpu Ma, Zhebo Wang, Zifan Zhang, Dezhang Kong, Meng Han
发布日期: 2026-01-28
内容级别: Deep Dive

摘要

现有测试时计算扩展方法将反馈仅作为外部过滤机制,无法真正改进模型的推理策略。本文提出思维策略(Policy of Thoughts, PoT),将推理重构为实例级在线优化过程。PoT通过蒙特卡洛树搜索(MCTS)生成多样候选解,然后利用群组相对策略优化(GRPO)更新瞬时LoRA适配器,实现测试时的实时策略进化。核心理念源自波普尔认识论:智能需要从失败中学习并动态精炼推理策略。

实验结果令人瞩目:仅4B参数的模型在LiveCodeBench上达到49.71%准确率,超越GPT-4o(49.75%整体)和DeepSeek-V3等50倍以上参数的商业模型。

主要贡献

  • 提出将推理重构为闭环在线优化过程的PoT框架,实现测试时策略进化
  • 结合MCTS探索与GRPO优化,通过瞬时LoRA适配器实现实时策略内化
  • 4B模型在代码推理基准上超越50倍参数的商业模型(GPT-4o, DeepSeek-V3)
  • 消融实验证明策略进化比纯搜索提升12.57pp,突破传统搜索的逻辑瓶颈
  • 跨架构泛化验证:在Qwen3-1.7B和Phi-3-mini上均实现显著提升

方法详解:四阶段闭环优化

PoT将推理过程分为四个阶段,形成猜想-反驳-进化的闭环:

阶段一:问题初始化

为每个推理实例创建任务专属的瞬时LoRA适配器(phi_1),基础模型权重theta始终保持冻结。这一设计确保:

  • 每个问题独立优化,避免跨任务干扰
  • 基础模型能力不受影响(良性过拟合)
  • 优化仅发生在低秩适配器的小参数空间内

阶段二:探索性猜想(TT – Thinking)

执行K次并行MCTS模拟,每步生成k=3个候选延续(分支因子):

  • 使用PUCT选择公式平衡利用与探索
  • 若任一模拟达到完美奖励(R(tau)=1.0)则提前终止
  • 分支因子k=3为最优选择:k=1因对比样本不足准确率降至31.42%,k>=16仅有边际提升但延迟增加8-18倍

阶段三:执行反馈(EE – Environment Evaluation)

通过环境执行评估所有生成轨迹,基于测试用例分配奖励:

1
2
3
4
5
6
7
8
9
def compute_reward(trajectory, test_cases):
n_pass = sum(1 for tc in test_cases if execute(trajectory, tc))
n_total = len(test_cases)
if n_pass == n_total:
return 1.0 # 全部通过
elif n_pass > 0:
return n_pass / n_total # 部分通过
else:
return 0.0 # 全部失败

阶段四:策略内化(P2 – Policy Update)

相对优势估计(组内归一化):

1
A_hat_i = clip((R(tau_i) - mean({R_j})) / max(std({R_j}), eta), -C_A, C_A)

GRPO损失函数:

1
L(phi) = (1/G) * sum_i[min(r_{i,j}(phi) * A_hat_i, clip(r_{i,j}, 1-eps, 1+eps) * A_hat_i) - beta * D_KL(pi_phi || pi_ref)]

关键超参数配置:

  • 学习率: 1e-4
  • LoRA秩: r=8
  • KL惩罚系数: beta=0.02
  • 组大小: G=3
  • PPO裁剪比: eps=0.3

以进化后策略为先验,重复上述循环,实现渐进式策略精炼。

实验结果

核心性能(Qwen3-4B基础模型)

基准 PoT 最佳基线 提升
HumanEval 98.78% Best-of-N: 90.85% +7.93pp
MBPP 94.94% LATS: 90.66% +4.28pp
LiveCodeBench V5 57.49% LATS: 47.51% +9.98pp
LiveCodeBench V6 49.71% RethinkMCTS: 44.12% +5.59pp
ICPC 19.18% CodeT: 8.22% +10.96pp
总体 58.98% Reflexion: 49.20% +9.78pp

超越商业模型

4B参数PoT解算器(参数量小50倍以上)超越多个商业模型:

模型 总体准确率
GPT-4o 49.75%
Claude-Opus-4 51.30%
DeepSeek-V3 50.55%
Gemini-2.5-Flash 51.12%
Qwen3-4B + PoT 58.98%

关键消融:静态搜索 vs 自适应PoT

LiveCodeBench V6上的对比:

  • 零样本基线: 27.43%
  • 纯MCTS搜索(无策略更新): 37.14% (+9.71pp)
  • PoT(MCTS + LoRA策略进化): 49.71% (+22.28pp)

12.57pp的差距明确证明:实时策略内化是PoT性能优势的核心来源,传统搜索方法达到逻辑瓶颈后无法继续提升,而策略进化能突破这一限制。

跨架构泛化

  • Qwen3-1.7B: 零样本43.01% -> PoT 52.55% (+9.54pp)
  • Phi-3-mini-4k: 零样本44.45% -> PoT 57.81% (+13.36pp)

技术洞察

  1. 良性过拟合现象: 瞬时LoRA在稀疏反馈下的密集更新不会导致灾难性遗忘,而是将过拟合引导至有益方向
  2. 环境反馈的关键作用: PoT在具有原生可执行反馈的任务(代码、形式证明)中表现最佳,暗示方法的适用边界
  3. 计算效率: 分支因子k=3时每迭代473.66ms,是质量与效率的最优平衡点

局限与展望

  • 当前依赖环境可执行反馈,在开放式推理(如创意写作)中需要奖励模型替代
  • 瞬时LoRA的跨实例知识迁移尚未探索
  • 与更大基础模型结合的扩展效果有待验证

资源链接

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero