Think-with-Me:交互式测试时干预解决LLM过度思考问题

Posted on 一月 16, 2026

Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning ArXiv ID: 2601.11252作者: Qianyue Wang, Jinwu Hu, Yufeng Wang, Huanxiang Lin, Bolin Chen, Zhiquan Wen, Yaofo Chen, Mingkui Tan发布日期: 2026-01-16内容级别: Analysis 摘要大型推理模型(如QwQ-32B、DeepSeek-R1)在面对推理任务时常常”过度思考”–即使已经得到正确答案仍继续冗余推理,导致上下文窗口浪费和推理延迟增加。本文提出Think-with-Me,一种测试时交互式推理范式,在推理过程中的转折连词处引入外部反馈干预,自适应决定终止或继续推理。在AIME24上,Think-with...

阅读全文

长运行Agent的有效框架：跨上下文窗口的一致性进度

Posted on 十一月 26, 2025

长运行Agent的有效框架：跨上下文窗口的一致性进度来源: Anthropic Engineering Blog作者: Justin Young发布日期: 2025-11-26分类: ai-agents 概述AI Agent在跨多个上下文窗口工作时面临根本性挑战：每个新会话开始时都没有之前的记忆。Anthropic通过让Claude Opus 4.5仅用高层提示构建claude.ai克隆的实验，发现了两种典型失败模式——过度野心执行和过早完成声明。文章提出了初始化Agent+编码Agent的两部分架构，以及从人类软件工程实践中汲取灵感的一系列关键实践。核心内容问题的本质上下文窗口有限且复杂项目无法在单个窗口中完成。关键矛盾在于”每个新会话开始时都没有之前的记忆”——Agent工作在离散会话中，而项目需要连续进度。两种典型失败模式通过让Claude Opus 4.5尝试仅用高层...

阅读全文