长运行Agent的有效框架：跨上下文窗口的一致性进度

Posted on 十一月 26, 2025

长运行Agent的有效框架：跨上下文窗口的一致性进度来源: Anthropic Engineering Blog作者: Justin Young发布日期: 2025-11-26分类: ai-agents 概述AI Agent在跨多个上下文窗口工作时面临根本性挑战：每个新会话开始时都没有之前的记忆。Anthropic通过让Claude Opus 4.5仅用高层提示构建claude.ai克隆的实验，发现了两种典型失败模式——过度野心执行和过早完成声明。文章提出了初始化Agent+编码Agent的两部分架构，以及从人类软件工程实践中汲取灵感的一系列关键实践。核心内容问题的本质上下文窗口有限且复杂项目无法在单个窗口中完成。关键矛盾在于”每个新会话开始时都没有之前的记忆”——Agent工作在离散会话中，而项目需要连续进度。两种典型失败模式通过让Claude Opus 4.5尝试仅用高层...

阅读全文

我应该使用哪种提示技术？软件工程任务提示技术实证研究

Posted on 六月 5, 2025

我应该使用哪种提示技术？软件工程任务提示技术实证研究论文概述本文是一篇关于提示工程的实证研究论文，由 E. G. Santana Jr 等8位研究者共同完成。 This 综合性实证 study 系统性ally evaluates 14 established 提示工程 techniques across 10 软件工程 tasks using 4 大语言模型 models. The research reveals which prompting techniques are most effective for different types of SE tasks, providing practical guidance on technique selection based on task complexity, 推理 requirements, and contextu...

阅读全文

Claude 3.5 Sonnet在SWE-bench Verified上的突破：最小化脚手架的Agent设计

Posted on 一月 6, 2025

Claude 3.5 Sonnet在SWE-bench Verified上的突破：最小化脚手架的Agent设计来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025-01-06分类: ai-agents 概述Anthropic详细介绍了升级版Claude 3.5 Sonnet在SWE-bench Verified基准上达到49%的技术架构。文章的核心哲学是”尽可能多地将控制权交给语言模型本身，保持脚手架最小化”。从Claude 3 Opus的22%到Claude 3.5 Sonnet新版的49%，这一飞跃不仅展示了模型能力的进步，更揭示了工具接口设计在Agent系统中的关键作用。核心内容SWE-bench评估框架SWE-bench是一个衡量模型解决真实软件工程任务能力的AI评估基准。评估流程：...

阅读全文