思维策略(PoT):通过测试时策略进化扩展LLM推理 -- 4B模型超越GPT-4o

Posted on 一月 28, 2026

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution ArXiv ID: 2601.20379作者: Zhengbo Jiao, Hongyu Xian, Qinglong Wang, Yunpu Ma, Zhebo Wang, Zifan Zhang, Dezhang Kong, Meng Han发布日期: 2026-01-28内容级别: Deep Dive 摘要现有测试时计算扩展方法将反馈仅作为外部过滤机制,无法真正改进模型的推理策略。本文提出思维策略(Policy of Thoughts, PoT),将推理重构为实例级在线优化过程。PoT通过蒙特卡洛树搜索(MCTS)生成多样候选解,然后利用群组相对策略优化(GRPO)更新瞬时LoRA适配器,实现测试时的实时策略进化。核心理念源自波普尔...

阅读全文

基于潜在推理的测试时计算扩展：循环深度方法

Posted on 二月 7, 2025

论文概述这项研究提出了一种全新的语言模型架构，通过在潜在空间中进行隐式推理来实现测试时计算的扩展。与传统方法通过生成更多token来扩展推理能力不同，该模型采用了循环块迭代的创新设计，能够在测试时展开至任意深度，从而在不增加输出长度的情况下显著提升推理能力。研究团队将概念验证模型扩展到35亿参数，在计算效率上达到相当于500亿参数传统模型的水平，且无需专门训练数据，可在小上下文窗口下工作。论文信息：发布时间：2025-02-07 作者：Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein 研究方向：提示工程 (Prompt Engineerin...

阅读全文