Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning
ArXiv ID: 2601.11252作者: Qianyue Wang, Jinwu Hu, Yufeng Wang, Huanxiang Lin, Bolin Chen, Zhiquan Wen, Yaofo Chen, Mingkui Tan发布日期: 2026-01-16内容级别: Analysis
摘要大型推理模型(如QwQ-32B、DeepSeek-R1)在面对推理任务时常常”过度思考”–即使已经得到正确答案仍继续冗余推理,导致上下文窗口浪费和推理延迟增加。本文提出Think-with-Me,一种测试时交互式推理范式,在推理过程中的转折连词处引入外部反馈干预,自适应决定终止或继续推理。
在AIME24上,Think-with...