思维策略(PoT):通过测试时策略进化扩展LLM推理 -- 4B模型超越GPT-4o

Posted on 一月 28, 2026

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution ArXiv ID: 2601.20379作者: Zhengbo Jiao, Hongyu Xian, Qinglong Wang, Yunpu Ma, Zhebo Wang, Zifan Zhang, Dezhang Kong, Meng Han发布日期: 2026-01-28内容级别: Deep Dive 摘要现有测试时计算扩展方法将反馈仅作为外部过滤机制,无法真正改进模型的推理策略。本文提出思维策略(Policy of Thoughts, PoT),将推理重构为实例级在线优化过程。PoT通过蒙特卡洛树搜索(MCTS)生成多样候选解,然后利用群组相对策略优化(GRPO)更新瞬时LoRA适配器,实现测试时的实时策略进化。核心理念源自波普尔...

阅读全文

Think-with-Me:交互式测试时干预解决LLM过度思考问题

Posted on 一月 16, 2026

Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning ArXiv ID: 2601.11252作者: Qianyue Wang, Jinwu Hu, Yufeng Wang, Huanxiang Lin, Bolin Chen, Zhiquan Wen, Yaofo Chen, Mingkui Tan发布日期: 2026-01-16内容级别: Analysis 摘要大型推理模型(如QwQ-32B、DeepSeek-R1)在面对推理任务时常常”过度思考”–即使已经得到正确答案仍继续冗余推理,导致上下文窗口浪费和推理延迟增加。本文提出Think-with-Me,一种测试时交互式推理范式,在推理过程中的转折连词处引入外部反馈干预,自适应决定终止或继续推理。在AIME24上,Think-with...

阅读全文

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练

Posted on 八月 5, 2025

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练 ArXiv ID: 2508.03772作者: Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino, Paolo Mori机构: IIT-CNR (Italian National Research Council)发布日期: 2025-08-05 摘要GRPO（Group Relative Policy Optimization）在 LLM 对齐训练中越来越流行，但存在两个严重稳定性问题：Token 级惩罚导致梯度冲突和策略崩溃。本文提出的 GTPO（Gradient-corrected and Threshold-filtered Policy Optimization）通过冲突感知梯度修正和熵阈值过滤解决这些问题。在数学推理基准上，GT...

阅读全文

GraphRAG-R1: 图检索增强生成与过程约束强化学习

Posted on 七月 31, 2025

GraphRAG-R1: 图检索增强生成与过程约束强化学习 ArXiv ID: 2507.23581作者: Chuanyue Yu, Kuo Zhao, Yuhan Li 等机构: Tsinghua University发表: The Web Conference 2026 (WWW’26)发布日期: 2025-07-31 摘要现有的 GraphRAG 方法在处理复杂多跳推理任务时存在局限性。GraphRAG-R1 提出了一种自适应 GraphRAG 框架，通过过程约束的基于结果的强化学习来训练 LLM，增强其多跳推理能力。框架设计了两个关键奖励机制：渐进式检索衰减 (PRA) 解决浅层检索问题，成本感知 F1(CAF) 平衡性能与开销。在域内和域外数据集上均超越 SOTA 方法。问题背景传统 GraphRAG 的局限12345678910111213141516171819...

阅读全文

GSPO: Qwen团队用序列级优化重新定义GRPO，MoE训练终于稳了

Posted on 七月 24, 2025

GSPO: Qwen团队用序列级优化重新定义GRPO，MoE训练终于稳了 ArXiv ID: 2507.18071作者: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin机构: Alibaba Group (Qwen Team)发布日期: 2025-07-24 引言：GRPO的致命缺陷GRPO（Group Relative Policy Optimization）自DeepSeek-R1发布以来，已经成为LLM强化学习训练的事实标准。它去掉了PPO中昂贵的Critic网络，用组内相对奖励来估计优势值，大幅降低了计算成本。但GRPO有一个被广泛忽视的根本...

阅读全文