Think-with-Me:交互式测试时干预解决LLM过度思考问题

Posted on 一月 16, 2026

Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning

ArXiv ID: 2601.11252
作者: Qianyue Wang, Jinwu Hu, Yufeng Wang, Huanxiang Lin, Bolin Chen, Zhiquan Wen, Yaofo Chen, Mingkui Tan
发布日期: 2026-01-16
内容级别: Analysis

摘要

大型推理模型(如QwQ-32B、DeepSeek-R1)在面对推理任务时常常”过度思考”–即使已经得到正确答案仍继续冗余推理,导致上下文窗口浪费和推理延迟增加。本文提出Think-with-Me,一种测试时交互式推理范式,在推理过程中的转折连词处引入外部反馈干预,自适应决定终止或继续推理。

在AIME24上,Think-with-Me相比QwQ-32B准确率提升7.19%,同时推理长度减少81%。

核心问题:推理过度思考

现有大型推理模型的一个普遍问题是”过度思考”(overthinking):

自我验证循环: 模型倾向于反复验证已经正确的答案
不必要的探索: 即使已找到正确路径仍继续搜索替代方案
推理偏移(Overshoot): 过度推理可能导致偏离正确答案

这一问题在有限上下文窗口(如8K tokens)下尤为严重,因为冗余推理直接挤占了有效推理的空间。

Think-with-Me方法

干预机制

干预点识别: 识别推理文本中的转折连词(如”但是”、”然而”、”另一方面”)作为自然干预点。论文发现这些转折连词标志着推理方向可能发生变化的关键时刻。
外部反馈注入: 在干预点暂停推理,引入外部反馈:
- LLM代理模式: 由另一个LLM基于多标准评估当前推理状态
- 人类模式: 由人类专家提供反馈
自适应决策: 基于反馈决定终止推理(已找到答案)或继续推理(需要更多探索)

信息论形式化

用条件熵量化干预的潜在效果:

基础不确定性: H(T|C; theta) – 给定上下文C时对目标T的不确定性
干预后: H(T|C,F; theta) – 引入反馈F后的不确定性
有效干预条件: H(T|C,F; theta) < H(T|C; theta)

训练策略

使用GRPO(Group Relative Policy Optimization)在交互式推理模式下训练,使模型学会:

在转折连词处接受外部反馈
正确解读反馈信号
做出终止/继续的合理决策

实验结果

AIME24基准(8K上下文窗口):

指标	QwQ-32B	Think-with-Me	变化
准确率	基准	+7.19%	提升
推理长度	基准	-81%	大幅缩减

核心优势体现在有限上下文窗口下:通过减少冗余推理,将窗口空间留给真正有效的推理步骤。

与相关工作对比

方法	思路	是否需要训练	干预粒度
MTI	高熵token选择性CFG	否	Token级
Think-with-Me	转折连词处外部反馈	是(GRPO)	句子级
Self-Refine	自我反思修正	否	回合级

Think-with-Me的独特之处在于将推理从”独白”转变为”对话”,引入外部视角打破模型的自我验证循环。

实战价值

适用场景:

推理token预算受限的部署环境
需要人机协作的复杂推理任务
模型倾向于过度思考的场景(长链数学推理)

实施建议:

识别推理文本中的转折连词作为候选干预点
配置轻量LLM代理(不必与推理模型同等规模)作为外部评估器
设定推理长度上限作为强制评估触发条件
在GRPO训练中纳入效率奖励(鼓励短推理链)