思维策略(PoT):通过测试时策略进化扩展LLM推理 -- 4B模型超越GPT-4o

Posted on 一月 28, 2026

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

ArXiv ID: 2601.20379
作者: Zhengbo Jiao, Hongyu Xian, Qinglong Wang, Yunpu Ma, Zhebo Wang, Zifan Zhang, Dezhang Kong, Meng Han
发布日期: 2026-01-28
内容级别: Deep Dive

摘要

现有测试时计算扩展方法将反馈仅作为外部过滤机制,无法真正改进模型的推理策略。本文提出思维策略(Policy of Thoughts, PoT),将推理重构为实例级在线优化过程。PoT通过蒙特卡洛树搜索(MCTS)生成多样候选解,然后利用群组相对策略优化(GRPO)更新瞬时LoRA适配器,实现测试时的实时策略进化。核心理念源自波普尔认识论:智能需要从失败中学习并动态精炼推理策略。

实验结果令人瞩目:仅4B参数的模型在LiveCodeBench上达到49.71%准确率,超越GPT-4o(49.75%整体)和DeepSeek-V3等50倍以上参数的商业模型。

主要贡献

提出将推理重构为闭环在线优化过程的PoT框架,实现测试时策略进化
结合MCTS探索与GRPO优化,通过瞬时LoRA适配器实现实时策略内化
4B模型在代码推理基准上超越50倍参数的商业模型(GPT-4o, DeepSeek-V3)
消融实验证明策略进化比纯搜索提升12.57pp,突破传统搜索的逻辑瓶颈
跨架构泛化验证:在Qwen3-1.7B和Phi-3-mini上均实现显著提升

方法详解:四阶段闭环优化

PoT将推理过程分为四个阶段,形成猜想-反驳-进化的闭环:

阶段一:问题初始化

为每个推理实例创建任务专属的瞬时LoRA适配器(phi_1),基础模型权重theta始终保持冻结。这一设计确保:

每个问题独立优化,避免跨任务干扰
基础模型能力不受影响(良性过拟合)
优化仅发生在低秩适配器的小参数空间内

阶段二:探索性猜想(TT – Thinking)

执行K次并行MCTS模拟,每步生成k=3个候选延续(分支因子):

使用PUCT选择公式平衡利用与探索
若任一模拟达到完美奖励(R(tau)=1.0)则提前终止
分支因子k=3为最优选择:k=1因对比样本不足准确率降至31.42%,k>=16仅有边际提升但延迟增加8-18倍

阶段三:执行反馈(EE – Environment Evaluation)

通过环境执行评估所有生成轨迹,基于测试用例分配奖励:

def compute_reward(trajectory, test_cases):
    n_pass = sum(1 for tc in test_cases if execute(trajectory, tc))
    n_total = len(test_cases)
    if n_pass == n_total:
        return 1.0  # 全部通过
    elif n_pass > 0:
        return n_pass / n_total  # 部分通过
    else:
        return 0.0  # 全部失败

阶段四:策略内化(P2 – Policy Update)

相对优势估计(组内归一化):

1	A_hat_i = clip((R(tau_i) - mean({R_j})) / max(std({R_j}), eta), -C_A, C_A)

GRPO损失函数:

1	L(phi) = (1/G) * sum_i[min(r_{i,j}(phi) * A_hat_i, clip(r_{i,j}, 1-eps, 1+eps) * A_hat_i) - beta * D_KL(pi_phi \|\| pi_ref)]

关键超参数配置:

学习率: 1e-4
LoRA秩: r=8
KL惩罚系数: beta=0.02
组大小: G=3
PPO裁剪比: eps=0.3

以进化后策略为先验,重复上述循环,实现渐进式策略精炼。

实验结果

核心性能(Qwen3-4B基础模型)

基准	PoT	最佳基线	提升
HumanEval	98.78%	Best-of-N: 90.85%	+7.93pp
MBPP	94.94%	LATS: 90.66%	+4.28pp
LiveCodeBench V5	57.49%	LATS: 47.51%	+9.98pp
LiveCodeBench V6	49.71%	RethinkMCTS: 44.12%	+5.59pp
ICPC	19.18%	CodeT: 8.22%	+10.96pp
总体	58.98%	Reflexion: 49.20%	+9.78pp

超越商业模型

4B参数PoT解算器(参数量小50倍以上)超越多个商业模型:

模型	总体准确率
GPT-4o	49.75%
Claude-Opus-4	51.30%
DeepSeek-V3	50.55%
Gemini-2.5-Flash	51.12%
Qwen3-4B + PoT	58.98%

关键消融:静态搜索 vs 自适应PoT

LiveCodeBench V6上的对比:

零样本基线: 27.43%
纯MCTS搜索(无策略更新): 37.14% (+9.71pp)
PoT(MCTS + LoRA策略进化): 49.71% (+22.28pp)

12.57pp的差距明确证明:实时策略内化是PoT性能优势的核心来源,传统搜索方法达到逻辑瓶颈后无法继续提升,而策略进化能突破这一限制。

跨架构泛化

Qwen3-1.7B: 零样本43.01% -> PoT 52.55% (+9.54pp)
Phi-3-mini-4k: 零样本44.45% -> PoT 57.81% (+13.36pp)

技术洞察

良性过拟合现象: 瞬时LoRA在稀疏反馈下的密集更新不会导致灾难性遗忘,而是将过拟合引导至有益方向
环境反馈的关键作用: PoT在具有原生可执行反馈的任务(代码、形式证明)中表现最佳,暗示方法的适用边界
计算效率: 分支因子k=3时每迭代473.66ms,是质量与效率的最优平衡点

局限与展望

当前依赖环境可执行反馈,在开放式推理(如创意写作)中需要奖励模型替代
瞬时LoRA的跨实例知识迁移尚未探索
与更大基础模型结合的扩展效果有待验证