设计抗AI技术评估：Anthropic的三轮迭代之旅

Posted on 一月 21, 2026

设计抗AI技术评估：Anthropic的三轮迭代之旅来源: Anthropic Engineering Blog作者: Tristan Hume (Performance Optimization Team Lead)发布日期: 2026-01-21分类: ai-agents 概述Anthropic性能优化团队负责人Tristan Hume记录了团队在三轮迭代中维护高预测性技术招聘评估的过程。随着Claude模型能力不断增强，每个版本的性能工程笔试都被连续击败，团队不得不持续创新评估设计。文章揭示了一个根本性矛盾：模拟真实工作曾是评估成功的关键，但AI在已知领域的快速进步使得”现实性可能已是我们无法承受的奢侈品”。核心内容问题的本质技术招聘评估面临根本性挑战：今天能有效区分人类技能水平的笔试，明天可能被AI模型轻松解决。Anthropic亲身经历了这一挑战的三轮迭代。第一版：...

阅读全文

AI Agent评估体系全面指南：从理论到实践

Posted on 一月 9, 2026

AI Agent评估体系全面指南：从理论到实践来源: Anthropic Engineering Blog作者: Mikaela Grace, Jeremy Hadfield, Rodrigo Olivares, Jiri De Jonghe发布日期: 2026-01-09分类: ai-agents 概述Anthropic发布了一篇关于AI Agent评估体系的全面指南，系统阐述了评估的核心概念、三种评分器类型（代码、模型、人工）、五类Agent的评估方法（编码、对话、研究、计算机操作、通用），以及从零开始构建评估体系的完整八步路线图。这是目前最全面、最具实操性的Agent评估实践指南之一。核心内容为什么需要Agent评估没有结构化测试的团队陷入被动循环——只在用户遇到问题后才发现问题。”Agent变差了”却无法量化时，就到了构建评估体系的时候。跳过评估的代价：无法区分真...

阅读全文

长运行Agent的有效框架：跨上下文窗口的一致性进度

Posted on 十一月 26, 2025

长运行Agent的有效框架：跨上下文窗口的一致性进度来源: Anthropic Engineering Blog作者: Justin Young发布日期: 2025-11-26分类: ai-agents 概述AI Agent在跨多个上下文窗口工作时面临根本性挑战：每个新会话开始时都没有之前的记忆。Anthropic通过让Claude Opus 4.5仅用高层提示构建claude.ai克隆的实验，发现了两种典型失败模式——过度野心执行和过早完成声明。文章提出了初始化Agent+编码Agent的两部分架构，以及从人类软件工程实践中汲取灵感的一系列关键实践。核心内容问题的本质上下文窗口有限且复杂项目无法在单个窗口中完成。关键矛盾在于”每个新会话开始时都没有之前的记忆”——Agent工作在离散会话中，而项目需要连续进度。两种典型失败模式通过让Claude Opus 4.5尝试仅用高层...

阅读全文

Claude高级工具使用：工具搜索、程序化调用与使用示例三大新功能

Posted on 十一月 24, 2025

Claude高级工具使用：工具搜索、程序化调用与使用示例三大新功能来源: Anthropic Engineering Blog作者: Bin Wu 及 Claude Developer Platform 团队发布日期: 2025-11-24分类: ai-agents 概述Anthropic在Claude开发者平台推出三项高级工具使用Beta功能，分别解决传统工具使用的三大瓶颈：工具定义的上下文膨胀（可超过50,000 tokens）、每次调用的推理开销、以及JSON Schema无法表达使用模式的参数歧义问题。这三项功能将AI Agent从”简单函数调用”推向”智能编排”的新阶段。核心内容传统工具使用的三大瓶颈上下文膨胀：工具Schema在Agent处理用户请求前就可能消耗50,000+个token 推理开销：每次工具调用需要完整模型推理，中间结果在上下文中累积参数歧义：J...

阅读全文

AWS Bedrock AgentCore MCP服务器 - AI Agent开发的对话式加速器

Posted on 十月 2, 2025

AWS Bedrock AgentCore MCP服务器:用对话重新定义Agent开发如果你曾经尝试开发一个生产级的AI Agent,你一定经历过翻阅冗长文档、配置复杂IAM权限、调试神秘错误的痛苦。AWS在2025年10月推出的Bedrock AgentCore MCP服务器,将这些痛苦压缩到了与AI助手的几句对话中。问题:传统Agent开发的时间黑洞传统流程需要15-20小时第1-2小时: 阅读200+页AgentCore文档第3-5小时: 配置AWS CLI、IAM角色、ECR仓库第6-10小时: 代码迁移到AgentCore架构第11-15小时: 调试权限、网络、容器化部署 AgentCore MCP的革命:分钟级部署12345678910你(对Claude说): "帮我创建一个AgentCore Runtime应用"MCP服务器自动完成:✅ ...

阅读全文

AI Agent的有效上下文工程

Posted on 九月 29, 2025

文章概述本文由 Anthropic 应用 AI 团队撰写，介绍了上下文工程（Context Engineering）这一概念，它是提示工程（Prompt Engineering）在 AI Agent 时代的进化形态。随着大语言模型能力的提升，挑战不再仅仅是编写完美的提示词，而是如何策略性地管理进入模型有限注意力预算的信息。文章深入探讨了系统提示词设计、工具定义、上下文检索策略，以及长时任务的技术手段，为构建高效可靠的 AI Agent 提供了实践指南。文章信息：发布时间：2025-09-29 作者：Prithvi Rajasekaran, Ethan Dixon, Carly Ryan, Jeremy Hadfield 机构：Anthropic Applied AI Team 研究方向：上下文工程 (Context Engineering), AI Agent 架构核心技术：...

阅读全文

Claude 3.5 Sonnet在SWE-bench Verified上的突破：最小化脚手架的Agent设计

Posted on 一月 6, 2025

Claude 3.5 Sonnet在SWE-bench Verified上的突破：最小化脚手架的Agent设计来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025-01-06分类: ai-agents 概述Anthropic详细介绍了升级版Claude 3.5 Sonnet在SWE-bench Verified基准上达到49%的技术架构。文章的核心哲学是”尽可能多地将控制权交给语言模型本身，保持脚手架最小化”。从Claude 3 Opus的22%到Claude 3.5 Sonnet新版的49%，这一飞跃不仅展示了模型能力的进步，更揭示了工具接口设计在Agent系统中的关键作用。核心内容SWE-bench评估框架SWE-bench是一个衡量模型解决真实软件工程任务能力的AI评估基准。评估流程：...

阅读全文