Towards a Science of Scaling Agent Systems

Posted on 十二月 9, 2025

Towards a Science of Scaling Agent Systems ArXiv ID: 2512.08296作者: Yubin Kim, Ken Gu, Chanwoo Park 等 (MIT, Google DeepMind)发布日期: 2025-12-09分类: ai-agents 摘要智能体 – 基于语言模型的能够推理、规划和行动的系统 – 正在成为实际 AI 应用的主导范式。然而，决定其性能的原则仍然未被充分探索。本文通过推导多智能体系统的定量扩展原则来解决这一问题，将智能体数量、协调结构、模型能力和任务属性之间的相互作用形式化为可预测的扩展定律。核心发现：更多智能体并不总是更好 – 架构必须匹配任务结构，拓扑、验证和任务分解等设计选择与模型大小同等重要。主要贡献1. 形式化的智能体评估定义首次为多智能体系统提出严格的评估框架，包括效率、开销、错误放大...

阅读全文

长运行Agent的有效框架：跨上下文窗口的一致性进度

Posted on 十一月 26, 2025

长运行Agent的有效框架：跨上下文窗口的一致性进度来源: Anthropic Engineering Blog作者: Justin Young发布日期: 2025-11-26分类: ai-agents 概述AI Agent在跨多个上下文窗口工作时面临根本性挑战：每个新会话开始时都没有之前的记忆。Anthropic通过让Claude Opus 4.5仅用高层提示构建claude.ai克隆的实验，发现了两种典型失败模式——过度野心执行和过早完成声明。文章提出了初始化Agent+编码Agent的两部分架构，以及从人类软件工程实践中汲取灵感的一系列关键实践。核心内容问题的本质上下文窗口有限且复杂项目无法在单个窗口中完成。关键矛盾在于”每个新会话开始时都没有之前的记忆”——Agent工作在离散会话中，而项目需要连续进度。两种典型失败模式通过让Claude Opus 4.5尝试仅用高层...

阅读全文

Claude高级工具使用：工具搜索、程序化调用与使用示例三大新功能

Posted on 十一月 24, 2025

Claude高级工具使用：工具搜索、程序化调用与使用示例三大新功能来源: Anthropic Engineering Blog作者: Bin Wu 及 Claude Developer Platform 团队发布日期: 2025-11-24分类: ai-agents 概述Anthropic在Claude开发者平台推出三项高级工具使用Beta功能，分别解决传统工具使用的三大瓶颈：工具定义的上下文膨胀（可超过50,000 tokens）、每次调用的推理开销、以及JSON Schema无法表达使用模式的参数歧义问题。这三项功能将AI Agent从”简单函数调用”推向”智能编排”的新阶段。核心内容传统工具使用的三大瓶颈上下文膨胀：工具Schema在Agent处理用户请求前就可能消耗50,000+个token 推理开销：每次工具调用需要完整模型推理，中间结果在上下文中累积参数歧义：J...

阅读全文

Claude 3.5 Sonnet在SWE-bench Verified上的突破：最小化脚手架的Agent设计

Posted on 一月 6, 2025

Claude 3.5 Sonnet在SWE-bench Verified上的突破：最小化脚手架的Agent设计来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025-01-06分类: ai-agents 概述Anthropic详细介绍了升级版Claude 3.5 Sonnet在SWE-bench Verified基准上达到49%的技术架构。文章的核心哲学是”尽可能多地将控制权交给语言模型本身，保持脚手架最小化”。从Claude 3 Opus的22%到Claude 3.5 Sonnet新版的49%，这一飞跃不仅展示了模型能力的进步，更揭示了工具接口设计在Agent系统中的关键作用。核心内容SWE-bench评估框架SWE-bench是一个衡量模型解决真实软件工程任务能力的AI评估基准。评估流程：...

阅读全文