2026 年 3 月博客文章汇总
来源: Claude.com Blog发布日期: 2026-03-06类型: 官方博客汇总
概述本文汇总了 2026 年 3 月 Anthropic 和 Claude 官方博客发布的重要文章,涵盖产品更新、技术分享、行业洞察等内容。这些文章展示了 Anthropic 在 AI 安全、模型能力和产品开发方面的最新进展。
3 月发布文章列表产品更新类
文章
发布日期
主题
How Anthropic Teams Use Claude Code
2026-03-06
内部团队使用案例
Claude and Slack Integration
2026-03-06
Slack 集成发布
Contribution Metrics for Claude Teams
2026-03-06
贡献度指标功能
Cowork Plugins Pr...
Claude Code 网页版:浏览器中的 AI 编程助手
Claude Code 网页版:浏览器中的 AI 编程助手
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新
概述Anthropic 于 2025 年 10 月 20 日正式推出了 Claude Code 网页版,这是一款革命性的云端编程解决方案,允许开发者直接从浏览器中委托 AI 完成编码任务。作为研究预览版(research preview)发布,该功能代表了 AI 辅助编程领域的重大突破。
Claude Code 网页版的核心价值在于其云端执行架构。用户无需打开终端即可启动编码会话,只需连接 GitHub 仓库并描述需求,Claude 便会自动处理实现细节。每个会话在独立的隔离环境中运行,支持实时进度跟踪,用户可以在 Claude 执行任务的过程中主动引导和调整方向。
该功能特别适用于处理 Bug 积压、例行修复和并行开发工作。通过云端运...
Claude Team 更新:团队协作功能增强
Claude Team 更新:团队协作功能增强
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新
概述Anthropic 于 2026 年 1 月 28 日宣布对 Claude Team 团队计划进行重大更新,旨在使团队协作功能更加普及和经济实惠。此次更新的核心内容包括价格调整、年度折扣政策推出、使用额度提升以及企业级管理功能增强。
具体而言,标准席位价格降至每月 20 美元(年付优惠)或 25 美元(月付),高级席位价格为每月 100 美元(年付优惠)或 125 美元(月付)。每个 Team 席位的使用额度均超过 Pro 个人专业计划,而高级席位的使用额度更是标准席位的五倍。对于高频率使用的超级用户,团队管理员还可以额外购买使用容量。
此次更新充分体现了 Anthropic 对企业协作场景的深度理解。Team 计划为团队成员提供了一个共享工作...
Claude Chrome 扩展:浏览网页时的 AI 助手
Claude Chrome 扩展:浏览网页时的 AI 助手
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新
概述Anthropic 正式推出了 Claude Chrome 浏览器扩展的测试版本,标志着 AI 助手正式进入浏览器交互领域。这项功能允许用户在浏览网页时直接指令 Claude 代表用户执行各种操作,从简单的表单填写到复杂的网页交互任务。
该扩展最初于 2025 年 8 月面向 1,000 名 Max 计划用户开启研究预览,经过数月的真实环境测试后,目前已扩展至所有付费计划用户(Pro、Team、Enterprise 和 Max 计划)。企业用户还获得了组织级管理功能,管理员可以统一启用或禁用扩展,并配置站点白名单和黑名单。
Claude Chrome 扩展的核心价值在于将 AI 助手深度集成到用户日常浏览体验中。用户可以授权 Cla...
AI Agent 常用工作流模式及应用场景
AI Agent 常用工作流模式及应用场景
来源: Claude.com Blog发布日期: 2026-03-06类型: 官方公告
概述本文深入探讨了 AI Agent(智能体)开发中的三种核心工作流模式:顺序工作流、并行工作流和评估 - 优化工作流。文章基于 Anthropic 团队与数十个构建 AI Agent 的团队合作经验,系统性地分析了每种模式的适用场景、权衡取舍和实施策略。
在实际生产环境中,选择正确的工作流模式对于控制延迟、令牌成本与系统可靠性至关重要。顺序工作流适用于具有明确依赖关系的多阶段任务,通过将复杂问题分解为专注的子任务来提高准确性;并行工作流通过同时执行独立任务显著缩短完成时间,适合多维度评估和文档分析场景;评估 - 优化工作流则通过生成与评估的迭代循环,能够产出符合特定质量标准的高质量输出,适用于代码生成、专业文档和客户通信等场景。
文章强调了一个核心原...
Claude Agent Skills 完整开发指南
Claude Agent Skills 完整开发指南
来源: Claude.com Blog发布日期: 2026-03-06类型: 教程指南
概述Skills(技能)功能让您可以将自己独特的工作流程教给 Claude,一次设定,始终如一地应用。本指南涵盖了如何构建、测试和分发 Skills——无论是用于独立工作流程还是 MCP(Model Context Protocol)增强集成。
自 2025 年 10 月推出 Skills 功能以来,我们看到了来自开发者群体的强烈兴趣:开发者希望 Claude 能够始终如一地遵循特定工作流程;高级用户希望自动化重复性任务(如文档创建或研究流程);团队希望标准化 Claude 在其组织内的操作方式;MCP 连接器构建者则将可靠的流程与其集成配对使用。
所有这些用户都有一个共同诉求:希望获得关于构建有效 Skills 的更详细指导——无论是独立工...
贡献度指标:衡量 AI 助手在团队中的价值
贡献度指标:衡量 AI 助手在团队中的价值
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新
概述Anthropic 今日正式宣布在 Claude Code 中推出**贡献度指标(Contribution Metrics)**功能,该功能现已进入公开测试阶段。这项新功能使工程团队能够量化 Claude Code 对其团队开发速度的实际影响,包括追踪由 Claude 协助生成的代码提交和合并的拉取请求(PR)。
在 Anthropic 内部,工程团队广泛使用 Claude Code,贡献度数据帮助公司量化了其实际价值。随着 Claude Code 在内部的普及率不断提升,Anthropic 观察到每位工程师每天合并的 PR 数量增长了67%。在各团队中,目前**70-90%**的代码都是在 Claude Code 的协助下编写的。
虽然仅凭拉取请...
企业级 Cowork 插件:跨行业应用案例
企业级 Cowork 插件:跨行业应用案例
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新
概述Anthropic 于 2026 年 2 月 24 日正式发布了面向企业级用户的 Cowork 和插件系统重大更新。此次更新的核心目标是帮助企业将 Claude 深度定制为适应不同部门和角色工作流的专业化智能体(Agents)。通过全新的私有插件市场功能,企业管理员可以创建组织内部的插件分发体系,实现 AI 能力的规模化和标准化部署。
本次发布的主要更新包括:管理员可通过统一的「定制(Customize)」菜单管理插件、技能和连接器;新增对私有 GitHub 仓库作为插件源的支持(私有测试阶段);增强的连接器目录和管理控制;面向终端用户的结构化表单式斜杠命令体验;以及贯穿整个 Cowork 界面的公司品牌化定制。此外,Anthropic 还宣布新增...
Cowork 插件系统:扩展 AI 助手能力
Cowork 插件系统:扩展 AI 助手能力
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新
概述Anthropic 正式宣布为 Claude Cowork 推出插件(Plugins)系统,这是一项旨在将 Claude Code 的强大能力扩展至更广泛用户群体的重要功能更新。插件系统允许用户将技能(Skills)、连接器(Connectors)、斜杠命令(Slash Commands)和子代理(Sub-agents)捆绑在一起,将 Claude 打造成针对特定角色、团队和公司的专业化助手。
通过插件系统,用户不仅可以设定目标让 Claude 完成工作,还能进一步指定工作方式:告诉 Claude 偏好的工作流程、需要集成的工具和数据源、关键工作流程的处理方式,以及向团队暴露的斜杠命令。这使得团队能够获得更加一致和高质量的工作成果。
该功能特别适...
金融行业 Cowork 插件:财务自动化实践
金融行业 Cowork 插件:财务自动化实践
来源: Claude.com Blog发布日期: 2026 年 2 月 24 日类型: 产品更新阅读时间: 5 分钟类别: 企业级 AI、智能体、Claude 企业版
概述2026 年 2 月 24 日,Anthropic 正式宣布对 Claude Cowork 系统进行重大更新,专门针对金融服务行业推出了一系列全新的插件功能和跨应用程序工作流能力。此次更新标志着 AI 助手在金融专业领域的应用迈出了重要一步,使得金融从业人员能够在单一会话中完成从市场数据研究到财务模型更新,再到最终演示文稿制作的端到端工作流程。
本次更新的核心亮点包括:Claude 现在能够在 Excel 和 PowerPoint 之间无缝切换,保持上下文连续性,完成多步骤金融任务;推出了五个由 Anthropic 自主研发的金融插件,涵盖财务分析、投资银行、股票研究...
Cowork 研究预览:前沿 AI 协作技术
Cowork 研究预览:为您的全部工作配备 Claude Code
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新阅读时间: 5 分钟
概述Anthropic 正式推出了 Cowork 研究预览版,这是一款革命性的 AI 协作工具,旨在将 Claude Code 的强大能力扩展至非技术用户群体。Cowork 允许用户授予 Claude 访问计算机上指定文件夹的权限,使其能够读取、编辑或创建文件,从而完成各种复杂的自动化任务。
从整理下载文件夹中的文件、从截图生成费用清单电子表格,到根据零散笔记撰写报告初稿,Cowork 展现了前所未有的自主工作能力。该工具采用与 Claude Code 相同的技术基础,但以更易于非技术人员使用的形式呈现。用户只需设定任务,Claude 便会制定计划并稳步执行,同时实时汇报进度。
Cowork 目前作为研究预览...
模型发布幕后:早期测试用户发现的 Claude Opus 4.6 能力
模型发布幕后:早期测试用户发现的 Claude Opus 4.6 能力
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新
概述在新版 Claude 模型正式向公众发布之前,有一小群客户会提前几天获得访问权限。这些早期测试者使用预生产研究模型,针对真实工作负载进行测试,以弄清楚模型擅长什么、在哪里会出问题,以及是否准备好在 Anthropic 公开发布时立即交付给自己的用户。他们提供的诚实评估——包括有效的部分和无效的部分——直接塑造了 Anthropic 最终发布的模型版本。
本文揭示了这一幕后过程的真实面貌。Harvey、bolt.new、Shopify 和 Lovable 四家公司分享了他们在 Claude Opus 4.6 早期访问期间的经历:他们采用的方法、发现的突破以及比任何人都更早学到的经验。从深夜的紧急测试到 Slack 频道在奇...
Anthropic 团队如何使用 Claude Code
Anthropic 团队如何使用 Claude Code
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新
概述Anthropic 官方博客发表了一篇深度文章,详细介绍了 Claude Code 在 Anthropic 内部各团队中的实际应用情况。这篇文章通过对公司内部多个部门的访谈,揭示了智能编码工具如何不仅加速传统开发流程,更在消除技术与非技术工作之间的界限。
文章指出,Claude Code 在 Anthropic 内部已被广泛应用于从调试生产环境问题和导航陌生代码库,到构建自定义自动化工具等各种场景。产品工程团队将其称为任何编程任务的”第一站”;数据科学团队利用它快速理解整个代码库和数据管道依赖关系;安全工程团队则将其用于事件响应和运行手册编写。
最引人注目的是,Claude Code 的使用已超越了传统的工程团队。法律团队构建了原型”...
2026 年企业构建 AI Agent 的实践方法
2026 年企业构建 AI Agent 的实践方法
来源: Claude.com Blog发布日期: 2026-03-06类型: 教程指南
概述2026 年,AI Agent 已经从实验性技术转变为企业技术栈中不可或缺的核心组成部分。为了深入了解企业如何实际部署和使用 AI Agent,Anthropic 与研究公司 Material 合作,对来自不同行业和企业规模的 500 多名技术领导者进行了全面调查。
调查结果显示出一个清晰的趋势:企业正在从简单的任务自动化转向跨越团队和业务职能的复杂多步骤工作流。超过一半的组织(57%)目前已部署 AI Agent 用于多阶段工作流,其中 16% 正在运行跨多个团队的跨职能流程。到 2026 年底,81% 的组织计划开展更复杂的应用场景,包括 39% 的企业计划为多步骤流程开发 Agent,29% 的企业计划将其部署于跨职能项目。
值得注意...
领先零售商如何将 AI 试点转化为企业级转型
领先零售商如何将 AI 试点转化为企业级转型
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新阅读时间: 约 10 分钟
概述大多数企业级 AI 项目起步强劲,但很快就会陷入停滞。在过去一年中,我们与处于不同转型阶段的零售组织紧密合作——有些困于”试点炼狱”无法前进,而另一些则成功将 AI 扩展到数千名员工。
本文基于 Anthropic 最新发布的企业 AI 转型指南,深入分析了零售行业 AI 转型的成功路径。指南识别出三个关键步骤,将处于领先地位的 AI 采用者与落后者区分开来。这些洞察来源于与多家已实现可衡量投资回报率(ROI)的组织的实际合作经验。
当前零售商面临熟悉的压力:利润率微薄、客户期望持续上升、自动化压力与保持服务质量的需求正面冲突。普华永道(PwC)报告显示,88% 的高管计划在今年增加 AI 投资。然而,投资本身并非瓶颈。...
动态过滤改进网页搜索:更准确高效的信息获取
动态过滤改进网页搜索:更准确高效的信息获取
来源: Claude.com Blog发布日期: 2026 年 2 月 17 日类型: 产品公告阅读时间: 5 分钟类别: 产品公告 | Claude 开发者平台
概述Anthropic 在发布 Claude Opus 4.6 和 Sonnet 4.6 模型的同时,推出了全新的网页搜索(web search)和网页抓取(web fetch)工具升级版本。此次更新的核心创新在于**动态过滤(Dynamic Filtering)**技术——Claude 现在能够在网页搜索过程中原生地编写并执行代码,在搜索结果加载到上下文窗口之前对其进行过滤处理。
传统的基础网页搜索工具需要代理(Agent)执行以下步骤:发起查询、将搜索结果拉取到上下文中、从多个网站获取完整的 HTML 文件,然后进行推理并最终响应。然而,从搜索中拉取的上下文内容往往包含大...
通过 Skills 改进前端设计:AI 辅助开发实践
通过 Skills 改进前端设计:AI 辅助开发实践
来源: Claude.com Blog发布日期: 2026-03-06类型: 官方公告
概述在 AI 辅助编程日益普及的今天,开发者经常发现一个有趣却令人困扰的现象:当要求大语言模型(LLM)创建前端页面时,输出结果往往呈现出高度同质化的”AI 风格”——Inter 字体、紫色渐变背景、极简动画,这种千篇一律的设计被社区戏称为”AI slop”(AI 糟粕)。这一现象的根源在于模型训练数据的”分布收敛”(distributional convergence)特性:模型在采样过程中倾向于选择训练数据中出现频率最高的”安全”设计模式,这些模式虽然通用且不会出错,却严重削弱了产品的品牌识别度。
Anthropic 团队在最新博文中深入探讨了如何利用 Claude 的 Skills(技能)功能来解决这一挑战。Skills 是一种动态上下...
改进 Skill Creator:测试、衡量和优化 Agent Skills
改进 Skill Creator:测试、衡量和优化 Agent Skills
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新
概述2026 年 3 月 3 日,Anthropic 宣布了对 Claude Code Skill Creator(技能创建器)的重大升级。此次更新将软件开发的严谨性(测试、基准测试、迭代改进)引入了技能创作流程,同时无需用户编写任何代码。
自 2025 年 10 月推出 Agent Skills(智能体技能)以来,Anthropic 发现大多数技能创作者是领域专家而非工程师。他们精通自己的工作流程,但缺乏工具来判断:技能在新模型上是否仍然有效、是否在适当时机触发、编辑后是否真正改进。
新的 Skill Creator 提供了三大核心功能:Evals 评估系统用于编写测试并验证技能行为、基准测试模式追踪通过率/...
Claude 集成:连接您的工作工具
Claude 集成:连接您的工作工具
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新
概述2026 年 3 月 6 日,Anthropic 正式推出了 Claude 集成(Integrations)功能,这是一项旨在将 Claude 与用户日常工作工具和应用深度连接的创新产品。与此同时,Claude 的高级研究(Research)能力也得到显著扩展,能够跨网络、Google Workspace 以及已连接的服务进行搜索,快速生成包含完整引用的综合报告。
本次更新标志着 Claude 从单一的对话式 AI 助手向企业级智能工作平台的重大转变。通过集成功能,Claude 能够获取关于用户工作的深度上下文信息——包括项目历史、任务状态和组织知识库——并能够在各个工作界面上执行操作。这意味着 Claude 不再仅仅是一个被动回答问题的工具,而成为了一...
Max 计划:高级 AI 助手服务
Max 计划:高级 AI 助手服务
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新阅读时间: 5 分钟
概述2026 年 3 月 6 日,Anthropic 正式推出了面向重度用户的 Max 计划(Max Plan),这是 Claude 订阅服务层级中的全新高级套餐。该计划专为那些需要与 Claude 进行深度协作、对使用量有更高需求的专业人士和企业用户设计。
Max 计划的核心价值在于提供高达 Pro 计划 20 倍的使用额度,同时确保用户能够优先体验 Anthropic 最新推出的功能和模型。这一举措直接回应了活跃用户群体长期以来对扩展使用限额的强烈需求。
该计划提供两种灵活的用量级别:扩展用量版(Expanded Usage) 每月 100 美元,提供 Pro 计划 5 倍的使用额度,适合频繁使用 Claude 处理各类任务的用户;最高...
金融服务行业构建 AI Agent 的实践指南
金融服务行业构建 AI Agent 的实践指南
来源: Claude.com Blog发布日期: 2025 年 10 月 30 日类型: 教程指南阅读时间: 5 分钟分类: Agent、企业 AI产品: Claude Developer Platform
概述金融机构正在大规模部署自主 AI 系统以提升运营效率,同时应对监管复杂性和风险管理挑战。在银行业、财富管理和保险业,自主 AI Agent 正在改变客户理解支出模式和发现储蓄机会的方式。这些工具能够识别潜在的透支费用、建议更优的储蓄策略,并指导财务决策。
根据麦肯锡的研究,采用 AI Agent 工作流进行欺诈检测的金融机构可实现200% 至 2000% 的生产力提升。挪威银行投资管理公司(NBIM)的员工通过使用 Claude,每周在分析和运营任务上累计节省数百小时。
然而,对大多数机构而言,真正的挑战不在于采用 AI Ag...
预览、审查和合并:Claude Code 自动化工作流
预览、审查和合并:Claude Code 自动化工作流
来源: Claude.com Blog发布日期: 2026-03-06类型: 官方公告
概述Anthropic 于 2026 年 2 月 20 日宣布为 Claude Code 桌面版带来重大功能升级,旨在帮助开发者在一个统一的工作环境中完成从代码编写到 PR 合并的完整开发闭环。此次更新涵盖了四大核心功能:自动化预览运行中的应用、智能代码审查、PR 自动修复与合并,以及跨设备无缝会话切换。
这些改进的核心目标是减少开发者在编码过程中的繁琐操作(toil),让开发者能够将更多精力投入到真正有创造性和价值的工作中。通过自动化预览功能,Claude Code 可以直接启动开发服务器并在桌面界面中预览运行中的应用,自动查看 Web 应用 UI、读取控制台日志、捕获错误并持续迭代,无需用户在浏览器和 Claude 之间来回切换。新增的...
Claude Enterprise 自助服务现已正式开放
Claude Enterprise 自助服务现已正式开放
来源: Claude.com Blog发布日期: 2026-03-06类型: 官方公告阅读时间: 约 5 分钟
概述2026 年 3 月 6 日,Anthropic 正式宣布 Claude Enterprise 企业服务现已支持自助购买模式。这一重大更新意味着任何组织都无需再经过销售团队的沟通谈判,直接通过 Anthropic 官网即可完成企业版的采购流程。企业用户可以在几分钟内完成工作区设置、单点登录(SSO)配置,并立即开始邀请团队成员加入。
Claude Enterprise 为企业组织提供了完整的 AI 解决方案,包括 Claude 智能助手、Claude Code 代码编程工具以及 Cowork 协工作品。该服务不仅提供强大的 AI 能力,还配备了企业级的安全保障和管理控制功能,使组织能够安全地在大规模范围内部署 ...
AI 如何帮助突破成本障碍:COBOL 系统现代化改造
AI 如何帮助突破成本障碍:COBOL 系统现代化改造
来源: Claude.com Blog发布日期: 2026-03-06类型: 教程指南
概述COBOL(Common Business Oriented Language)作为一门诞生于 1959 年的编程语言,至今仍在全球关键基础设施中发挥着不可替代的作用。据统计,美国 95% 的 ATM 交易都依赖 COBOL 处理,每天有数千亿行 COBOL 代码在金融、航空和政府部门的生產系统中运行。然而,随着当初构建这些系统的工程师逐渐退休,能够理解和维护 COBOL 的人才正急剧减少——目前仅有少数大学仍在教授这门语言。
这种技术债务的积累给组织带来了严峻挑战:一方面,COBOL 系统承载着数十年来积累的业务逻辑和数据,其可靠性和稳定性经过长期验证;另一方面,维护成本不断攀升,懂 COBOL 的工程师越来越难寻找。传统现代化改造方...
Claude 与 Slack 集成:在聊天协作中体验 AI 助手
Claude 与 Slack 集成:在聊天协作中体验 AI 助手
来源: Claude.com Blog发布日期: 2025-10-01类型: 产品更新阅读时间: 5 分钟
概述Anthropic 正式宣布推出 Claude 与 Slack 的深度集成功能,这标志着企业级 AI 助手正式进入主流团队协作工具。本次集成提供了两种全新的使用方式:用户可以直接将 Claude 添加到 Slack 工作区中,在频道和线程内获得 AI 协助;或者将 Slack 连接到 Claude 应用,让 Claude 在对话过程中搜索和引用相关的 Slack 消息。
这项集成于 2025 年 10 月 1 日首次发布,并于 2026 年 1 月 26 日更新,现已向 Claude Pro 和 Max 订阅用户开放 Slack 连接器功能。对于使用 Team 和 Enterprise 计划的企业客户,只需...
Claude Code 最佳实践
Claude Code 最佳实践
从配置环境到跨并行会话扩展,充分利用 Claude Code 的提示和模式。
Claude Code 是一个代理式编码环境。与等待回答问题的聊天机器人不同,Claude Code 可以读取你的文件、运行命令、进行更改,并在你观看、重定向或完全离开的情况下自主解决问题。
核心约束:上下文窗口大多数最佳实践都基于一个约束:Claude 的上下文窗口填充速度很快,随着填充,性能会下降。
Claude 的上下文窗口保存你的整个对话,包括每条消息、Claude 读取的每个文件和每个命令输出。当上下文窗口即将满时,Claude 可能会开始”遗忘”早期的指令或犯更多错误。
给 Claude 一种验证其工作的方式当 Claude 能够验证自己的工作时,例如运行测试、比较屏幕截图和验证输出,它的表现会显著提高。
策略示例
策略
之前
之后
提供验证标准
“...
常见工作流程
常见工作流程
使用 Claude Code 探索代码库、修复错误、重构、测试和其他日常任务的分步指南。
理解新代码库快速获取代码库概览
导航到项目根目录:cd /path/to/project
启动 Claude Code:claude
请求高级概览:give me an overview of this codebase
深入了解特定组件:
explain the main architecture patterns used here
what are the key data models?
how is authentication handled?
查找相关代码
要求 Claude 查找相关文件:find the files that handle user authentication
获取有关组件如何交互的上下文:how do these authenticat...
Claude Opus 4.6 在金融服务领域的应用
Claude Opus 4.6 在金融服务领域的应用
来源: Claude.com Blog发布日期: 2026-03-06类型: 产品更新
概述Anthropic 于 2026 年 2 月 5 日正式发布 Claude Opus 4.6 模型,该模型代表了 AI 在金融服务领域的重大进步。Claude Opus 4.6 专为金融专业人士设计,能够在复杂分析任务中提供更精准的推理能力,生成更加精炼的初次交付成果,并引入了针对分析师实际工作场景的全新工具。
本次更新不仅带来了模型本身的升级,还同步推出了多项产品功能改进。Cowork 功能现在能够生成更加完善的财务模型和演示文稿;Claude in Excel 在处理长时间运行的复杂任务时表现更加出色,能够随着财务模型复杂度的提升保持专注和准确性;此外,Anthropic 还以测试预览版的形式发布了 Claude in PowerPo...
使用 Hooks 自动化工作流
使用 hooks 自动化工作流
当 Claude Code 编辑文件、完成任务或需要输入时自动运行 shell 命令。
设置你的第一个 hook通过 /hooks 交互式菜单创建 hook:
在 Claude Code CLI 中输入 /hooks
选择 hook 事件(如 Notification)
配置匹配器(或保留为空以匹配所有)
添加要运行的命令
选择存储位置(用户设置或项目设置)
你可以自动化什么在 Claude 需要输入时获得通知macOS:
123456789101112131415{ "hooks": { "Notification": [ { "matcher": "", "hooks"...
CLI 参考
CLI 参考
Claude Code 命令行界面的完整参考,包括命令和标志。
CLI 命令
命令
描述
示例
claude
启动交互式会话
claude
claude "query"
使用初始提示启动交互式会话
claude "explain this project"
claude -p "query"
通过 SDK 查询,然后退出
claude -p "explain this function"
cat file | claude -p "query"
处理管道内容
cat logs.txt | claude -p "explain"
claude -c
继续当前目录中最近的对话
claude -c
claude -c -p &...
通过 MCP 连接工具
通过 MCP 将 Claude Code 连接到工具
了解如何使用 Model Context Protocol 将 Claude Code 连接到您的工具。
使用 MCP 可以做什么连接 MCP servers 后,您可以要求 Claude Code:
从问题跟踪器实现功能:”添加 JIRA 问题 ENG-4521 中描述的功能,并在 GitHub 上创建 PR。”
分析监控数据:”检查 Sentry 和 Statsig 以检查 ENG-4521 中描述的功能的使用情况。”
查询数据库:”根据我们的 PostgreSQL 数据库,找到 10 个使用功能 ENG-4521 的随机用户的电子邮件。”
集成设计:”根据在 Slack 中发布的新 Figma 设计更新我们的标准电子邮件模板”
自动化工作流:”创建 Gmail 草稿,邀请这 10 个用户参加关于新功能的反馈会议。”
安...
扩展 Claude Code
扩展 Claude Code
了解何时使用 CLAUDE.md、Skills、subagents、hooks、MCP 和 plugins。
概述扩展插入代理循环的不同部分:
CLAUDE.md 添加 Claude 每个会话都能看到的持久上下文
Skills 添加可重用的知识和可调用的工作流
MCP 将 Claude 连接到外部服务和工具
Subagents 在隔离的上下文中运行自己的循环,返回摘要
Agent teams 协调多个独立的 Claude Code 会话
Hooks 完全在循环外作为确定性脚本运行
Plugins 打包和分发这些功能
将功能与您的目标相匹配
功能
作用
何时使用
示例
CLAUDE.md
每次对话加载的持久上下文
项目约定、”始终执行 X” 规则
“使用 pnpm,而不是 npm。在提交前运行测试。”
Skill
Claude 可以使用...
配置权限
配置权限
使用细粒度权限规则、模式和托管策略来控制 Claude Code 可以访问和执行的操作。
权限系统Claude Code 使用分层权限系统来平衡功能和安全性:
工具类型
示例
需要批准
“是,不再询问”行为
只读
文件读取、Grep
否
不适用
Bash 命令
Shell 执行
是
每个项目目录和命令永久有效
文件修改
Edit/Write 文件
是
直到会话结束
管理权限使用 /permissions 查看和管理 Claude Code 的工具权限:
Allow 规则让 Claude Code 使用指定的工具而无需手动批准
Ask 规则在 Claude Code 尝试使用指定工具时提示确认
Deny 规则防止 Claude Code 使用指定的工具
规则按顺序评估:deny -> ask -> allow。第一个匹配的规...
记忆和 CLAUDE.md
Claude 如何记住你的项目
使用 CLAUDE.md 文件为 Claude 提供持久指令,并让 Claude 通过自动记忆自动积累学习。
每个 Claude Code 会话都从一个全新的上下文窗口开始。两种机制可以跨会话传递知识:
CLAUDE.md 文件:你编写的指令,为 Claude 提供持久上下文
自动记忆:Claude 根据你的更正和偏好自己编写的笔记
CLAUDE.md 与自动记忆对比
CLAUDE.md 文件
自动记忆
谁编写
你
Claude
包含内容
指令和规则
学习和模式
范围
项目、用户或组织
每个工作树
加载到
每个会话
每个会话(前 200 行)
用于
编码标准、工作流、项目架构
构建命令、调试见解、偏好
CLAUDE.md 文件选择 CLAUDE.md 文件的位置
范围
位置
目的
共享对象
托管策略
系统...
Claude Code 设置
Claude Code 设置
使用全局和项目级设置以及环境变量配置 Claude Code。
配置作用域Claude Code 使用作用域系统来确定配置应用的位置以及与谁共享。
可用作用域
作用域
位置
影响范围
与团队共享?
Managed
服务器管理的设置、plist / 注册表
机器上的所有用户
是(由 IT 部署)
User
~/.claude/ 目录
您,跨所有项目
否
Project
存储库中的 .claude/
此存储库上的所有协作者
是(提交到 git)
Local
.claude/*.local.* 文件
您,仅在此存储库中
否(gitignored)
作用域优先级当在多个作用域中配置相同的设置时,更具体的作用域优先:
Managed(最高)- 无法被任何内容覆盖
命令行参数 - 临时会话覆盖
Local - 覆盖项目和用户设...
快速入门
快速入门
欢迎使用 Claude Code!
本快速开始指南将在几分钟内让您使用 AI 驱动的编码辅助。
开始前确保您拥有:
打开的终端或命令提示符
一个要处理的代码项目
一个 Claude 订阅或 Anthropic Console 账户
步骤 1:安装 Claude Code原生安装(推荐)macOS, Linux, WSL:
1curl -fsSL https://claude.ai/install.sh | bash
Windows PowerShell:
1irm https://claude.ai/install.ps1 | iex
Windows CMD:
1curl -fsSL https://claude.ai/install.cmd -o install.cmd && install.cmd && del install....
故障排除
故障排除
发现 Claude Code 安装和使用中常见问题的解决方案。
安装问题常见错误消息
错误
解决方案
command not found: claude
修复 PATH
syntax error near unexpected token '<'
安装脚本返回 HTML
curl: (56) Failure writing output to destination
先下载脚本,然后运行
Linux 上安装期间 Killed
添加交换空间
TLS connect error
更新 CA 证书
Failed to fetch version
检查网络连接
Invoke-Expression: Missing argument
使用正确的 shell
调试步骤检查网络连接验证可以访问 Google Cloud Sto...
创建自定义 subagents
创建自定义 subagents
在 Claude Code 中创建和使用专门的 AI subagents,用于特定任务的工作流和改进的上下文管理。
什么是 SubagentsSubagents 是处理特定类型任务的专门 AI 助手。每个 subagent 在自己的 context window 中运行,具有:
自定义系统提示
特定的工具访问权限
独立的权限
Subagents 帮助您
保留上下文:将探索和保持在主对话之外
强制执行约束:限制 subagent 可以使用的工具
跨项目重用配置:使用用户级 subagents
专门化行为:为特定领域使用专注的系统提示
控制成本:将任务路由到更快、更便宜的模型
内置 subagentsExplore
Model: Haiku(快速、低延迟)
Tools: 只读工具
Purpose: 文件发现、代码搜索、代码库探索
Plan
Mod...
Anthropic Engineering Blog 技术文章精选
Anthropic Engineering Blog 技术文章精选
来源: Anthropic Engineering Blog发布日期: 2026-03-06类型: 技术文集
概述本文汇总了 Anthropic Engineering Blog 发布的核心技术文章,涵盖 AI Agent 架构、工具使用、安全沙箱、评估方法等多个主题。这些文章代表了 Anthropic 工程团队在构建生产级 AI 系统方面的最佳实践和经验总结,为开发者提供了宝贵的参考资源。
文章分类汇总AI Agent 架构
文章
发布日期
主题
Building Effective Agents
2024-12-19
Agent 工作流和架构模式
Multi-Agent Research Systems
2025-04-22
多 Agent 协作系统
Effective Harnesses
...
Claude Code 最佳实践指南
Claude Code 最佳实践指南
来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2026 年 3 月 1 日类型: 最佳实践指南阅读时间: 约 15 分钟
概述本文提供了 Claude Code 的完整最佳实践指南,涵盖配置优化、工作流设计、提示工程、调试技巧和生产部署等方面。通过在 Anthropic 内部的实践经验,我们总结了一套高效使用 Claude Code 进行软件开发的方法论,包括项目上下文管理、任务分解策略、代码审查流程和安全性考虑。遵循这些最佳实践,开发团队可以将 Claude Code 的效率提升 2-3 倍,同时保持代码质量和安全性。
引言Claude Code 作为 AI 辅助编程工具,正在改变软件开发的工作方式。然而,要充分发挥其潜力,需要理解最佳实践和正确的工作流程...
使用并行 Claude 团队协作构建 C 语言编译器
使用并行 Claude 团队协作构建 C 语言编译器
来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2026 年 2 月 5 日类型: 技术案例研究阅读时间: 约 12 分钟
概述本文详细介绍了 Anthropic 团队如何使用并行 Claude 团队协作的方式,在创纪录的时间内构建了一个功能完整的 C 语言编译器前端。通过多 Agent 协作模式,团队将词法分析、语法分析、语义分析和代码生成等任务分配给不同的 Claude 实例并行处理,同时使用协调 Agent 进行任务编排和质量控制。该项目展示了 AI Agent 协作在复杂软件工程任务中的巨大潜力,为大型软件开发提供了新的范式。
项目背景与挑战为什么构建 C 编译器C 语言编译器是验证 AI 编程能力的理想基准:
复杂性高:涉及词法分析...
量化 Agentic 代码评估中的基础设施噪声
量化 Agentic 代码评估中的基础设施噪声
来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2026 年 2 月 3 日类型: 技术研究阅读时间: 约 10 分钟
概述本文深入分析了在评估 Agentic AI 系统时代码基础设施噪声对测试结果的影响。研究发现,基础设施噪声(如测试环境差异、网络延迟、资源竞争等)可能导致评估结果波动高达 15-20%。通过系统性的测量和分析,Anthropic 团队开发了一套减少噪声的方法论,包括环境标准化、多次运行平均、统计显著性检验等。这些方法显著提高了评估的可靠性和可重复性,为 AI Agent 性能评估提供了更准确的基础。
什么是基础设施噪声在评估 Agentic AI 系统时,”基础设施噪声”指的是所有非模型因素导致的性能波动:
噪声来源
测试环境差...
NSA:DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案
NSA:DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案
ArXiv ID: 2502.11089
作者: Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao等
机构: DeepSeek-AI, 北京大学, 华盛顿大学
发布日期: 2025年2月
摘要随着大语言模型的上下文窗口不断扩大(64K甚至更长),标准的全注意力机制在解码阶段成为严重的性能瓶颈——理论估计显示,64K上下文长度下softmax attention计算占总延迟的70-80%。DeepSeek团队提出NSA(Native Sparse Attention),一种硬件对齐的、可原生训练的稀疏注意力机制。NSA通过动态层级稀疏策略,将粗粒度的token压缩与细粒度的token选择相结合,在保持全注意力模型精度的同时,在64K序列上实现...
DMS:动态内存稀疏化——1000步训练实现8倍KV Cache压缩
DMS:动态内存稀疏化——1000步训练实现8倍KV Cache压缩
ArXiv ID: 2506.05345
作者: Adrian Lancucki等
机构: NVIDIA, University of Edinburgh
发布日期: 2025年6月
摘要推理时扩展(Inference-time Scaling)通过生成更长或更多的推理路径来提升LLM的推理能力,但其效率受限于KV Cache的内存瓶颈。本文提出推理时超缩放(Inference-Time Hyper-Scaling)的概念:通过压缩KV Cache,在相同计算预算内生成更多token,从而进一步提升推理精度。为此,作者提出DMS(Dynamic Memory Sparsification),一种仅需1000步训练即可实现8倍KV Cache压缩的稀疏化方法,同时精度优于无训练的稀疏注意力方案。DMS的关键设计包括...
GVote:自适应KV Cache压缩——告别手动预算设定
GVote:自适应KV Cache压缩——告别手动预算设定
ArXiv ID: 2509.03136
会议: ICLR 2026
发布日期: 2025年9月
摘要KV Cache压缩是长上下文LLM推理中的关键技术,但现有方法普遍依赖手动设定固定的压缩预算(如保留50%的KV对)。这种”普罗克鲁斯忒斯之床”式的做法迫使所有workload适应同一个压缩比,导致简单请求浪费内存、复杂请求精度损失。本文提出GVote,一种自适应KV Cache压缩方案,通过蒙特卡洛采样和投票机制自动计算最优缓存预算,无需人工设定。GVote基于隐状态服从高斯分布的观察,通过采样合成查询并投票决定保留哪些键值对,在多个基准测试中以更少的内存实现了更高或持平的精度。
核心问题固定预算的局限123456789固定预算 = 50%:├─ 简单查询("总结一句话"): 只需10% KV → ...
Expected Attention:基于未来查询分布估计的 KV Cache 压缩
Expected Attention:基于未来查询分布估计的 KV Cache 压缩
ArXiv ID: 2510.00636作者: Alessio Devoto, Maximilian Jeblick, Simon Jegou机构: Sapienza University of Rome, NVIDIA发布日期: 2025 年 10 月代码库: KVPress
摘要KV Cache 压缩面临一个基本矛盾:判断 KV 对重要性需要看未来查询的注意力分布,但推理时未来查询尚未产生。Expected Attention 通过利用 LLM 激活值的分布特性,以闭式解估计每个 KV 对的期望注意力分数,实现无训练、高效的 KV Cache 压缩。该方法在 prefilling 和 decoding 阶段均可无缝运行,且在 LongBench 等基准上全面超越现有基线。
问题背景KV C...
Saguaro:投机性投机解码——消除推测开销的异步加速方案
Saguaro:投机性投机解码——消除推测开销的异步加速方案
ArXiv ID: 2510.13161
会议: ICLR 2026
发布日期: 2025年10月
摘要投机解码(Speculative Decoding)已成为加速LLM推理的标准方法:用小型draft模型快速生成候选token序列,再由大模型并行验证。然而,传统投机解码中”推测→验证”的过程本身是串行的——draft模型必须等待上一轮验证完成后,才能基于验证结果生成下一轮推测。本文提出投机性投机解码(Speculative Speculative Decoding, SSD),核心思想是:在验证进行的同时,让draft模型预测可能的验证结果,并为每种可能结果预先准备推测序列。当验证完成时,如果实际结果命中预测缓存(cache hit),则可以立即返回推测结果,完全消除推测延迟。由此提出的Saguaro算法,在开源推理...
Framelink Figma Context MCP - 让AI精准理解你的设计稿
Framelink Figma Context MCP:从”看图写码”到”读懂设计”前端开发者最熟悉的场景之一:设计师给了一个Figma链接,你需要把设计还原成代码。传统做法是盯着设计稿截图,手动测量间距、提取颜色值、推断布局结构。即使使用Cursor等AI编程工具,粘贴截图生成的代码通常也差强人意——因为截图丢失了太多关键信息。Framelink Figma Context MCP 从根本上改变了这一局面。
为什么截图不够用当你给AI一张设计截图时,它能”看到”视觉效果,但无法获得:
精确的尺寸和间距数据(只能猜测像素值)
CSS属性(字体大小、行高、圆角半径等)
组件层级结构(哪些是可复用组件)
设计变量(颜色系统、间距系统)
响应式断点信息
Auto Layout约束
Framelink通过Figma API获取所有这些结构化数据,然后进行智能简化——只保留对代码生成最相关...
Cloudflare MCP Server - 15个模块覆盖全平台AI管理
Cloudflare MCP Server:15个模块打造最全面的云平台AI管理方案在所有云服务提供商中,Cloudflare可能是对MCP协议投入最深的一个。从2025年初的Workers MCP项目开始,到6月一口气发布13个新MCP服务器,再到后来推出MCP Server Portals安全网关,Cloudflare不仅在使用MCP,更在推动MCP生态的发展。目前,Cloudflare MCP Server集合包含15个独立的远程MCP服务模块,覆盖了从应用开发到安全运维的完整平台能力。
15个MCP服务模块一览每个模块都是一个独立的远程MCP端点,可以按需配置:
模块
端点
功能领域
Documentation
docs.mcp.cloudflare.com
搜索最新开发者文档
Workers Bindings
bindings.mcp.cloudflare....
Kubernetes MCP Server - Go原生的K8s集群AI管理
Kubernetes MCP Server:用自然语言管理你的K8s集群Kubernetes的强大毋庸置疑,但它的复杂性同样令人生畏。kubectl命令的参数之多、YAML配置之繁琐、故障排查时需要翻阅的日志之长,都是开发者和运维人员的日常痛点。Red Hat容器团队维护的这个Kubernetes MCP Server提供了一个全新的解决思路:通过自然语言与K8s集群对话,让AI助手帮你完成查询、部署、排查等运维工作。
为什么选择这个实现GitHub上有多个Kubernetes MCP Server项目,但containers/kubernetes-mcp-server有一个根本性的不同:
它不是kubectl的封装器。
大多数Kubernetes MCP Server实现的原理是:接收AI的指令 -> 拼接kubectl命令 -> 执行命令 -> 解析文...
Atlassian Rovo MCP Server - Jira和Confluence的AI原生集成
Atlassian Rovo MCP Server:让AI助手直接管理你的Jira和Confluence在现代软件开发团队中,Jira和Confluence几乎是不可或缺的协作工具。然而,在工具之间频繁切换——从IDE到Jira查看工单,再到Confluence查找文档——已经成为开发者效率的最大杀手之一。Atlassian Rovo MCP Server 的出现,正是为了从根本上解决这个问题:让AI助手直接在你的工作环境中操作Jira、Confluence和Compass。
什么是 Atlassian Rovo MCP ServerAtlassian Rovo MCP Server 是 Atlassian 于 2025 年 5 月正式发布的远程 Model Context Protocol 服务器。它与社区自托管方案最大的不同在于:这是一个由 Atlassian 官方运营、托管在 ...
Stripe MCP Server - AI驱动的支付业务管理
Stripe MCP Server:用自然语言管理你的整个支付业务对于任何做在线业务的公司来说,Stripe是最重要的基础设施之一。从创建支付链接、管理客户、处理退款到分析收入数据,这些日常操作通常需要在Stripe Dashboard和代码之间不断切换。Stripe MCP Server让这一切变得前所未有的简单——你只需要用自然语言告诉AI助手你要做什么。
为什么Stripe需要MCP传统方式的痛点
需要在Stripe Dashboard、API文档和代码之间频繁切换
查找特定客户或交易需要手动筛选和搜索
批量操作(如创建多个产品和价格)需要编写脚本
团队成员需要学习Stripe API才能完成简单的查询任务
MCP方式的优势123456用户: 创建一个月度订阅产品"Pro Plan",价格$29.99/月, 并生成一个支付链接AI: 已完成: ...
Prompt对决优化器(PDO):基于对决赌博机的无标签提示优化
LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
ArXiv ID: 2510.13907作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill发布日期: 2025-10-14 (修订: 2026-01-28)内容级别: Analysis
摘要大多数自动提示优化(APO)方法依赖真实标签(ground-truth),但在实际应用中获取标注数据成本高昂。本文提出Prompt对决优化器(PDO),将提示选择建模为对决赌博机(dueling-bandit)问题,仅使用LLM评判器的成对偏好反馈进行无标签提示优化...
思维策略(PoT):通过测试时策略进化扩展LLM推理 -- 4B模型超越GPT-4o
Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution
ArXiv ID: 2601.20379作者: Zhengbo Jiao, Hongyu Xian, Qinglong Wang, Yunpu Ma, Zhebo Wang, Zifan Zhang, Dezhang Kong, Meng Han发布日期: 2026-01-28内容级别: Deep Dive
摘要现有测试时计算扩展方法将反馈仅作为外部过滤机制,无法真正改进模型的推理策略。本文提出思维策略(Policy of Thoughts, PoT),将推理重构为实例级在线优化过程。PoT通过蒙特卡洛树搜索(MCTS)生成多样候选解,然后利用群组相对策略优化(GRPO)更新瞬时LoRA适配器,实现测试时的实时策略进化。核心理念源自波普尔...
设计抗AI技术评估:Anthropic的三轮迭代之旅
设计抗AI技术评估:Anthropic的三轮迭代之旅
来源: Anthropic Engineering Blog作者: Tristan Hume (Performance Optimization Team Lead)发布日期: 2026-01-21分类: ai-agents
概述Anthropic性能优化团队负责人Tristan Hume记录了团队在三轮迭代中维护高预测性技术招聘评估的过程。随着Claude模型能力不断增强,每个版本的性能工程笔试都被连续击败,团队不得不持续创新评估设计。文章揭示了一个根本性矛盾:模拟真实工作曾是评估成功的关键,但AI在已知领域的快速进步使得”现实性可能已是我们无法承受的奢侈品”。
核心内容问题的本质技术招聘评估面临根本性挑战:今天能有效区分人类技能水平的笔试,明天可能被AI模型轻松解决。Anthropic亲身经历了这一挑战的三轮迭代。
第一版:...
Agentic Reasoning for Large Language Models
Agentic Reasoning for Large Language Models
ArXiv ID: 2601.12538作者: Tianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang 等 29 位作者发布日期: 2026-01-18分类: ai-agents
摘要推理是人类推断、问题求解和决策的基本认知过程。虽然大语言模型(LLM)在封闭世界环境中展现了强大的推理能力,但在开放式动态环境中仍面临挑战。本文综述了**智能体推理(Agentic Reasoning)**这一范式转变:将 LLM 重新定义为能够自主规划、行动并通过持续交互学习的智能体。
研究框架沿三个互补维度组织:
基础智能体推理 – 在稳定环境中建立核心单智能体能力(规划、工具使用、搜索)
自进化智能体推理 – 研究智能体如何通过反馈、记忆和适应...
Think-with-Me:交互式测试时干预解决LLM过度思考问题
Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning
ArXiv ID: 2601.11252作者: Qianyue Wang, Jinwu Hu, Yufeng Wang, Huanxiang Lin, Bolin Chen, Zhiquan Wen, Yaofo Chen, Mingkui Tan发布日期: 2026-01-16内容级别: Analysis
摘要大型推理模型(如QwQ-32B、DeepSeek-R1)在面对推理任务时常常”过度思考”–即使已经得到正确答案仍继续冗余推理,导致上下文窗口浪费和推理延迟增加。本文提出Think-with-Me,一种测试时交互式推理范式,在推理过程中的转折连词处引入外部反馈干预,自适应决定终止或继续推理。
在AIME24上,Think-with...
少即是多:最小测试时干预(MTI)精准提升LLM推理 -- 免训练+9%
Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
ArXiv ID: 2510.13940作者: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Ying-Cong Chen发布日期: 2025-10-15 (修订: 2026-01-11)内容级别: Deep Dive
摘要本文揭示了LLM推理中一个被忽视但关键的现象:推理不确定性高度局部化。仅一小部分高熵token对输出正确性产生决定性影响。基于这一发现,提出最小测试时干预(Minimal Test-Time Intervention, MTI),一个完全免训练的框架。MTI仅在不确定位置应用分类器无关引导(CFG),通过轻量级负向提示引...
AI Agent评估体系全面指南:从理论到实践
AI Agent评估体系全面指南:从理论到实践
来源: Anthropic Engineering Blog作者: Mikaela Grace, Jeremy Hadfield, Rodrigo Olivares, Jiri De Jonghe发布日期: 2026-01-09分类: ai-agents
概述Anthropic发布了一篇关于AI Agent评估体系的全面指南,系统阐述了评估的核心概念、三种评分器类型(代码、模型、人工)、五类Agent的评估方法(编码、对话、研究、计算机操作、通用),以及从零开始构建评估体系的完整八步路线图。这是目前最全面、最具实操性的Agent评估实践指南之一。
核心内容为什么需要Agent评估没有结构化测试的团队陷入被动循环——只在用户遇到问题后才发现问题。”Agent变差了”却无法量化时,就到了构建评估体系的时候。
跳过评估的代价:
无法区分真...
揭开 AI Agent 评估的神秘面纱
揭开 AI Agent 评估的神秘面纱
来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2026 年 1 月 8 日类型: 技术指南阅读时间: 约 14 分钟
概述本文全面解析 AI Agent 评估方法,包括评估指标设计、测试用例构建、评估流程实施和结果解读。我们分享了 Anthropic 内部使用的评估框架,涵盖了从单元测试到端到端评估的多层次评估策略,以及如何设计可靠、可重复、有意义的评估体系。
为什么评估很重要评估的目的能力评估:
Agent 能完成什么任务?
任务完成的质量如何?
在什么条件下会失败?
性能评估:
任务执行速度如何?
资源消耗是多少?
并发能力如何?
可靠性评估:
失败率是多少?
错误类型有哪些?
恢复能力如何?
评估的挑战
挑战
描述
解决方案
主...
Memory in the Age of AI Agents
Memory in the Age of AI Agents
ArXiv ID: 2512.13564作者: Yuyang Hu, Wangchunshu Zhou, Yixin Liu 等 47 位作者发布日期: 2025-12-15分类: context-engineering
摘要记忆已成为(并将持续是)基础模型智能体的核心能力。随着智能体记忆研究的快速扩展和前所未有的关注,该领域也变得日益碎片化 – 现有工作在动机、实现和评估协议上存在显著差异。传统的长期/短期记忆分类已不足以涵盖当代智能体记忆系统的多样性。
本文提供了一个全面的、多视角的智能体记忆研究全景,明确界定了智能体记忆的范畴,并将其与 LLM 记忆、RAG 和上下文工程等相关概念区分开来。
主要贡献1. 三视角分析框架提出了一个从三个维度理解智能体记忆的统一框架:
形式视角 (Forms)
Token ...
Towards a Science of Scaling Agent Systems
Towards a Science of Scaling Agent Systems
ArXiv ID: 2512.08296作者: Yubin Kim, Ken Gu, Chanwoo Park 等 (MIT, Google DeepMind)发布日期: 2025-12-09分类: ai-agents
摘要智能体 – 基于语言模型的能够推理、规划和行动的系统 – 正在成为实际 AI 应用的主导范式。然而,决定其性能的原则仍然未被充分探索。本文通过推导多智能体系统的定量扩展原则来解决这一问题,将智能体数量、协调结构、模型能力和任务属性之间的相互作用形式化为可预测的扩展定律。
核心发现:更多智能体并不总是更好 – 架构必须匹配任务结构,拓扑、验证和任务分解等设计选择与模型大小同等重要。
主要贡献1. 形式化的智能体评估定义首次为多智能体系统提出严格的评估框架,包括效率、开销、错误放大...
Azure MCP Server - 连接 AI 与 Azure 云服务的官方 MCP 服务器
Azure MCP Server 是微软官方实现的模型上下文协议服务器,为 AI 代理提供与 Azure 服务的无缝连接。它支持 Azure AI Search、Storage、SQL Database、Cosmos DB、Container Registry、Kubernetes Service、Key Vault、Monitor 等众多 Azure 服务,使 AI 能够通过自然语言管理和操作 Azure 资源。
工具列表azure_cli直接执行 Azure CLI 命令,提供完整的 Azure 命令行功能支持。允许 AI 代理使用标准 Azure CLI 语法执行任何 Azure 操作,无需为每个操作定义单独的工具。
参数:
command (string) (必需): 要执行的 Azure CLI 命令,如 ‘az vm list’ 或 ‘az storage acco...
docker-mcp-server - 通过 Claude AI 管理 Docker 容器的 MCP 服务器
docker-mcp 是一个强大的模型上下文协议(MCP)服务器,允许 Claude AI 无缝管理 Docker 容器和 Compose 堆栈。它提供容器创建、部署、日志检索和状态监控等核心功能,使 AI 能够通过自然语言与 Docker 生态系统交互。
工具列表create-container创建独立的 Docker 容器实例,支持自定义镜像、容器名称、端口映射和环境变量配置。这个工具让 AI 能够快速启动新容器而无需手动编写 Docker 命令。
参数:
image (string) (必需): 容器镜像名称,例如 ‘nginx:latest’ 或 ‘python:3.12’
name (string) (必需): 容器标识符,用于后续管理和引用
ports (object) (可选): 端口映射配置,键值对格式,例如 {‘80’: ‘80’, ‘443’: ‘443’}...
n8n-mcp-server - AI 驱动的工作流自动化 MCP 服务器
n8n-mcp 是一个全面的模型上下文协议服务器,为 AI 助手提供对 n8n 工作流自动化平台的深度访问。它包含 543 个 n8n 节点的完整文档、2646 个预提取配置和 2709 个工作流模板,使 AI 能够理解、创建和管理复杂的自动化工作流。
工具列表search_nodes智能搜索 n8n 节点,支持按名称、类别或功能查找。覆盖 543 个节点,包含来自 n8n-nodes-base 和 @n8n/n8n-nodes-langchain 的所有节点,帮助快速定位所需的自动化组件。
参数:
query (string) (必需): 搜索关键词,可以是节点名称、功能描述或类别
category (string) (可选): 可选的类别过滤器,例如 ‘communication’、’data’、’ai’ 等
get_node_properties获取指定节点的...
Claude Server MCP - 智能上下文管理和持久化 MCP 服务器
Claude Server 是一个创新的模型上下文协议实现,专注于为 Claude AI 提供高级上下文管理能力。它支持跨会话的持久化上下文、层级化的项目组织、对话连续性跟踪,以及基于元数据的灵活标签系统。通过在 ~/.claude/ 目录中组织存储,实现了高效的上下文查找和异步操作。
工具列表save_project_context存储项目特定的上下文信息,支持层级关系。可以创建父子上下文关系、引用其他上下文、添加标签分类和自定义元数据。适用于组织复杂项目的知识结构。
参数:
id (string) (必需): 上下文的唯一标识符
projectId (string) (必需): 关联的项目 ID
content (string) (必需): 上下文内容,可以是代码片段、文档、设计决策等
parentContextId (string) (可选): 可选的...
Desktop Commander MCP - 强大的终端控制和文件系统 MCP 服务器
Desktop Commander 是一个功能丰富的 MCP 服务器,使 Claude AI 能够执行终端命令、管理文件系统、编辑代码和分析数据。它提供交互式进程控制、内存代码执行、数据分析、进程管理、文件操作和代码搜索等强大功能,是 AI 辅助开发的全能工具。
工具列表start_process启动新的终端进程并支持智能状态检测。能够识别 REPL 提示符(如 Python 的 >>>、Node.js 的 >、Shell 的 $)、检测进程是否等待输入或已完成执行。支持超时配置和后台执行,适用于长时间运行的命令。
参数:
command (string) (必需): 要执行的终端命令,如 ‘python3 -i’、’node -i’、’bash’ 等
timeout_ms (number) (必需): 命令超时时间(毫秒),默认值取决于命令类型
she...
Docker Hub MCP Server - AI 驱动的容器镜像发现和仓库管理
Docker Hub MCP Server 是 Docker 官方开发的模型上下文协议服务器,它将 Docker Hub API 接口暴露给大语言模型,实现智能的容器镜像发现和仓库管理。开发者可以通过自然语言搜索 Docker Hub、管理仓库、发现合适的容器镜像,无需手动搜索,极大提升容器化开发的效率。
工具列表search查询 Docker Hub 仓库,支持架构、操作系统、类别等多种过滤器。可以搜索官方镜像、社区镜像、认证发布者镜像等,帮助快速找到符合需求的容器镜像。
参数:
query (string) (必需): 搜索关键词,如镜像名称、技术栈或用途
architectures (array) (可选): 架构过滤器,如 [‘amd64’, ‘arm64’]
operating_systems (array) (可选): 操作系统过滤器,如 [‘linux’, ‘wi...
聚焦思维链 (F-CoT): 先整理再推理,token 减少 2-3 倍
聚焦思维链 (F-CoT): 先整理再推理,token 减少 2-3 倍
ArXiv ID: 2511.22176作者: Lukas Struppek, Dominik Hintersdorf, Hannah Struppek, Daniel Neider, Kristian Kersting机构: TU Darmstadt, Fraunhofer IAIS发布日期: 2025-11-27内容级别: Quick
摘要标准思维链(CoT)让模型在推理过程中同时处理信息理解和逻辑推导,导致冗余 token 生成。受认知心理学中注意聚焦理论启发,本文提出 F-CoT(Focused Chain-of-Thought),一种免训练的输入导向方法。F-CoT 在推理前先将查询中的关键信息组织为简洁的结构化上下文,将信息提取与推理过程分离。在算术问题上实现2-3 倍 token 生成量减少,...
Focused Chain-of-Thought: 通过结构化输入信息实现高效 LLM 推理
Focused Chain-of-Thought: 通过结构化输入信息实现高效 LLM 推理
ArXiv ID: 2511.22176作者: Lukas Struppek, Dominik Hintersdorf, Hannah Struppek, Daniel Neider, Kristian Kersting发布日期: 2025-11-27分类: prompt-engineering, reasoning-efficiency
摘要受认知心理学启发,本文提出了 Focused Chain-of-Thought (F-CoT),一种将信息提取与推理过程分离的方法。F-CoT 首先将查询中的关键信息组织成简洁的结构化上下文,然后引导模型仅在此上下文上进行推理。在算术应用题上,F-CoT 将生成的 token 减少 2-3 倍,同时保持与标准零样本 CoT 相当的准确率。这是一种无需...
长运行Agent的有效框架:跨上下文窗口的一致性进度
长运行Agent的有效框架:跨上下文窗口的一致性进度
来源: Anthropic Engineering Blog作者: Justin Young发布日期: 2025-11-26分类: ai-agents
概述AI Agent在跨多个上下文窗口工作时面临根本性挑战:每个新会话开始时都没有之前的记忆。Anthropic通过让Claude Opus 4.5仅用高层提示构建claude.ai克隆的实验,发现了两种典型失败模式——过度野心执行和过早完成声明。文章提出了初始化Agent+编码Agent的两部分架构,以及从人类软件工程实践中汲取灵感的一系列关键实践。
核心内容问题的本质上下文窗口有限且复杂项目无法在单个窗口中完成。关键矛盾在于”每个新会话开始时都没有之前的记忆”——Agent工作在离散会话中,而项目需要连续进度。
两种典型失败模式通过让Claude Opus 4.5尝试仅用高层...
Claude高级工具使用:工具搜索、程序化调用与使用示例三大新功能
Claude高级工具使用:工具搜索、程序化调用与使用示例三大新功能
来源: Anthropic Engineering Blog作者: Bin Wu 及 Claude Developer Platform 团队发布日期: 2025-11-24分类: ai-agents
概述Anthropic在Claude开发者平台推出三项高级工具使用Beta功能,分别解决传统工具使用的三大瓶颈:工具定义的上下文膨胀(可超过50,000 tokens)、每次调用的推理开销、以及JSON Schema无法表达使用模式的参数歧义问题。这三项功能将AI Agent从”简单函数调用”推向”智能编排”的新阶段。
核心内容传统工具使用的三大瓶颈
上下文膨胀:工具Schema在Agent处理用户请求前就可能消耗50,000+个token
推理开销:每次工具调用需要完整模型推理,中间结果在上下文中累积
参数歧义:J...
长时运行 Agent 的有效控制框架
长时运行 Agent 的有效控制框架
来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 11 月 21 日类型: 技术架构阅读时间: 约 13 分钟
概述本文探讨了长时运行 AI Agent 的有效控制框架设计。随着 AI Agent 在生产环境中的广泛应用,如何管理和控制长时间运行的 Agent 成为关键挑战。我们分享了状态管理、错误恢复、任务调度、资源监控等方面的实践经验和架构设计。
长时运行 Agent 的挑战什么是长时运行 Agent定义:执行时间超过数分钟至数小时的 AI Agent 任务
典型场景:
大型代码库重构(1-4 小时)
全面数据分析报告(30 分钟 -2 小时)
复杂研究任务(2-8 小时)
自动化工作流(持续运行)
主要挑战
挑战
描述
影响
状...
Cosmopedia: HuggingFace最大规模合成训练数据集
Cosmopedia: 最大规模合成训练数据集数据集概览
规模: 30.3百万条教育内容
创建者: HuggingFace Smol Models Research
许可证: Apache 2.0 (可商用)
语言: 英语
用途: 小型语言模型预训练
核心特性Cosmopedia 由先进LLM生成的高质量合成数据组成,专门用于训练高效的小型语言模型(SLM)。它证明了合成数据可以有效替代传统网页爬取数据。
8个专业子集
子集
样本数
领域
web_samples_v1
12.4M
通用网页内容
web_samples_v2
10.3M
通用网页内容v2
stories
4.99M
故事叙述
auto_math_text
1.95M
数学教学
stanford
1.02M
斯坦福课程风格
wikihow
179k
实用教程
openstax
126k...
MMIE: 大规模多模态交错理解基准测试
MMIE: 大规模多模态交错理解基准数据集概览
全称: Massive Multimodal Interleaved Comprehension Benchmark
规模: 20,103个多模态问题
许可证: MIT
发布时间: 2024年10月
下载量: 30/月
点赞数: 12
核心特性MMIE是专门评估大型视觉-语言模型(LVLMs)在”交错理解和生成”能力方面的基准测试数据集。
覆盖范围
12个主要领域: 数学、物理、编程、统计、文学、哲学、教育、金融、健康、体育、艺术、电子工程
102个子领域: 细分的专业领域
3种任务类型:
情境分析 (Situational Analysis)
项目式学习 (Project-Based Learning)
多步推理 (Multi-Step Reasoning)
数据结构1234567891011{ &qu...
The Cauldron: HuggingFace多模态视觉-语言数据集合
The Cauldron: 多模态视觉-语言数据集合数据集概览
创建者: HuggingFace M4团队
关联模型: Idefics2-8B
数据类型: 多个视觉-语言子数据集的集合
更新时间: 2024年
许可证: 多种(根据子集不同)
核心特性The Cauldron 是 HuggingFace 精心策划的多模态数据集合,专门用于训练和评估视觉-语言基础模型。它为 Idefics2-8B 等先进的多模态模型提供训练数据。
数据集组成The Cauldron 整合了多个高质量的视觉-语言数据集,包括:
图像描述数据集: COCO Captions, Conceptual Captions等
视觉问答数据集: VQAv2, GQA, OKVQA等
文档理解数据集: DocVQA, InfographicVQA等
图表理解数据集: ChartQA, PlotQA等
多模态推理数据...
PleIAs SYNTH: 75B Token合成数据集重新定义小模型训练
核心观点:当行业追逐千亿参数的大模型时,PleIAs用一个75B token的纯合成数据集证明:56M参数的模型也能有实用的推理能力。SYNTH不是在追赶大模型的数据规模,而是在回答一个更基本的问题——训练一个”最小可行语言模型”需要什么样的数据。
小模型的数据困境训练大模型和训练小模型需要不同的数据策略,但几乎所有开源数据集都是为大模型设计的。
大模型的训练逻辑是”大力出奇迹”——用尽可能多的数据覆盖尽可能广的知识。但对于56M或321M参数的小模型,这个策略行不通。小模型的容量有限,如果用未经筛选的互联网数据训练,它会把有限的容量浪费在噪声上。
SYNTH的设计理念是:与其给小模型喂”原始互联网”,不如给它喂”精心设计的练习题”。
从5万篇Wikipedia到750亿TokenSYNTH的构建过程非常独特。它不是从互联网抓取数据,而是从Wikipedia的58698篇精选文章出发...
MOSS: 用微缩放和自动缩放实现无损 FP8 训练,OLMo-7B 加速 34%
MOSS: 用微缩放和自动缩放实现无损 FP8 训练,OLMo-7B 加速 34%
ArXiv ID: 2511.05811作者: Yu Zhang, Hui-Ling Zhen, Mingxuan Yuan, Bei Yu机构: The Chinese University of Hong Kong, Huawei Noah’s Ark Lab发布日期: 2025-11-08
FP8 训练的理想与现实FP8 训练的潜力12345678910FP8 vs BF16 理论对比:指标 | BF16 | FP8 | 提升--------------|-------|-------|------计算密度 | 128 | 256 | 2x内存占用 | 100% | 50% | 50%↓通信开销 | 100% | 25-5...
通过 MCP 执行代码:构建更高效的 AI Agent
通过 MCP 执行代码:构建更高效的 AI Agent
来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 10 月 30 日类型: 技术架构阅读时间: 约 12 分钟
概述本文介绍了如何通过模型上下文协议 (MCP) 实现安全的代码执行能力,构建更高效的 AI Agent 系统。通过在隔离的沙箱环境中执行代码,AI Agent 可以获得强大的计算能力、数据处理能力和自动化能力。我们分享了代码执行架构设计、安全隔离机制、性能优化技巧和实际应用场景。
为什么需要代码执行AI 模型的局限纯语言模型在处理某些任务时有天然局限:
数学计算:
模型:$237 \times 492 = ?$ (可能出错)
代码:237 * 492 (准确结果)
数据处理:
模型:分析 10000 行...
Agentic RAG: AI Agent驱动的检索增强生成
Agentic RAG: AI Agent驱动的检索增强生成
ArXiv ID: 2501.09136作者: Aditi Singh, Abul Ehtesham, Saket Kumar, Tala Talaei Khoei发布日期: 2025年1月15日 (最后更新: 2025年2月4日)分类: AI Agents / Context Engineering
核心特性Agentic RAG是什么?传统RAG系统采用被动检索模式: 接收查询 → 检索 → 生成答案。这种模式存在局限:
静态流程: 无法根据中间结果动态调整检索策略
单次检索: 难以处理需要多步推理的复杂问题
缺乏自主性: 不能主动判断何时需要检索
Agentic RAG通过将自主AI Agent嵌入RAG管道,实现:
自主决策: Agent决定何时检索、检索什么、如何组合信息
动态规划: 根据任务复...
Adaptive Graph of Thoughts: 测试时自适应推理框架
Adaptive Graph of Thoughts: 测试时自适应推理框架
ArXiv ID: 2502.05078作者: Tushar Pandey, Ara Ghukasyan, Oktay Goktas, Santosh Kumar Radha发布日期: 2025年2月7日分类: Prompt Engineering
核心创新统一CoT, ToT, GoT的自适应框架大语言模型的推理能力高度依赖于提示策略和模型规模。现有方法包括:
Chain-of-Thought (CoT): 线性推理链 → 适合简单任务,但难以处理复杂问题
Tree of Thoughts (ToT): 树形探索多个推理路径 → 适合需要回溯的任务,但计算开销大
Graph of Thoughts (GoT): 图结构允许路径合并和循环 → 灵活但需要人工设计图结构
AGoT的突破: 在测试时动态选...
Graph Retrieval-Augmented Generation: 图结构增强的RAG系统综述
Graph Retrieval-Augmented Generation: 图结构增强的RAG系统综述
ArXiv ID: 2408.08921作者: Boci Peng, Yun Zhu, Yongchao Liu, Xiaohe Bo, Haizhou Shi, Chuntao Hong, Yan Zhang, Siliang Tang发布日期: 2024年8月15日 (最后更新: 2024年9月10日)分类: Context EngineeringGitHub: pengboci/GraphRAG-Survey
论文摘要本文是GraphRAG(Graph Retrieval-Augmented Generation)领域的首个综合性调研,系统地回顾了将图结构融入检索增强生成(RAG)系统的方法论。
传统的RAG系统主要依赖非结构化文本检索,往往难以捕捉实体间的复杂关...
Agentic Context Engineering: 自进化的上下文优化框架
Agentic Context Engineering: 自进化的上下文优化框架
ArXiv ID: 2510.04618作者: Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun发布日期: 2025年10月6日分类: Context Engineering机构: Stanford University等
论文摘要ACE (Agentic Context Engineering) 是一个革命性的上下文适配框架,它将上下文视为不断进化的策略手册,通过生成、反思和整理三个模块,实现上...
A Survey of Context Engineering for Large Language Models: 上下文工程全景综述
A Survey of Context Engineering for Large Language Models: 上下文工程全景综述
ArXiv ID: 2507.13334作者: Lingrui Mei, Jiayu Yao, Yuyao Ge, Yiwei Wang, Baolong Bi, Yujun Cai, Jiazhi Liu, Mingyu Li, Zhong-Zhi Li, Duzhen Zhang, Chenlin Zhou, Jiayi Mao, Tianze Xia, Jiafeng Guo, Shenghua Liu (15位作者)发布日期: 2025年7月17日 (最后更新: 2025年7月21日)分类: Context Engineering论文规模: 分析了超过1400篇研究论文
论文摘要这是上下文工程(Context Engineering)领域...
Browser-Use MCP服务器 - 让AI用自然语言控制浏览器
Browser-Use MCP服务器:浏览器自动化的自然语言革命想象一下,你对AI助手说:”帮我在Amazon上找到评分最高的蓝牙耳机,价格在$50-$100之间,然后把前5个的详细信息整理成表格”。几秒钟后,浏览器自动打开、搜索、筛选、提取数据,最后返回完美格式的表格。这不是科幻,这是Browser-Use MCP服务器正在实现的现实。
为什么需要AI驱动的浏览器自动化?传统方法的痛点使用Selenium/Playwright需要:
❌ 手动分析网页DOM结构
❌ CSS选择器/XPath脆弱,网页改版就失效
❌ 复杂流程需要大量if-else逻辑
❌ 错误处理繁琐(元素未加载、网络超时等)
Browser-Use的自然语言方式1234567from mcp_client import MCPClientclient = MCPClient("br...
ReAct模式Agent中的工具调用历史管理与Token优化策略
问题背景在实现 ReAct(Reasoning + Acting)模式的 AI Agent 时,我们面临一个核心挑战:如何高效管理工具调用历史以优化 Token 使用?
ReAct 模式的标准流程
初始化:将 MCP 的 tool 列表转换为 function calling 格式,传给 LLM
LLM 推理:分析请求,决定调用哪些工具及参数
执行 Tool:调用对应的 MCP tool,获取返回结果
反馈循环:将结果添加到对话历史,再次发送给 LLM
迭代判断:
需要更多信息 → 继续调用工具
信息充足 → 生成最终回复
核心问题当 Agent 处理用户的下一个输入时,需要带上 history + 最新 input。那么:
history 是否有必要带上历史 tool 调用信息?
这个看似简单的问题,实际涉及到:
上下文连贯性 vs Token 成本
多轮推理能力 vs 内...
Infinity-Instruct: 大规模高质量指令微调数据集
Infinity-Instruct: 大规模高质量指令微调数据集
数据集链接: HuggingFace创建机构: 北京智源人工智能研究院 (BAAI)许可证: CC-BY-SA 4.0规模: 745 万指令(Core 版 140 万)质量评分: 4.7/5.0
核心观点智源的 Infinity-Instruct 用 745 万条指令证明了一个反直觉的事实——你不需要全部数据,140 万条核心样本就能达到 95.7% 的性能,关键在于数据的”能力覆盖密度”。
规模不是目的,能力覆盖才是745 万条指令听起来很多,但在指令微调领域这只能算中等规模。真正让 Infinity-Instruct 与众不同的是它的能力标签体系(ability_tag)——每条数据都被明确标注了对应的能力维度,比如”数学推理”、”代码生成”、”概念解释”。
这个设计回答了一个核心问题:怎么知道数据集是...
Anthropic HH-RLHF: 人类反馈偏好数据集
Anthropic HH-RLHF: 人类反馈偏好数据集
数据集链接: HuggingFace核心论文: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (arXiv:2204.05862)许可证: MIT规模: 169K 偏好对
核心观点HH-RLHF 是 RLHF 领域的”黄金标准”数据集,它证明了一件事——对齐不是玄学,而是可以通过结构化的人类偏好数据解决的工程问题。
为什么这个数据集重要?在 ChatGPT 爆火之前,很少有人意识到 RLHF(人类反馈强化学习)的价值。OpenAI 用 InstructGPT 证明了它的有效性,而 Anthropic 用 HH-RLHF 把这套方法论开源出来,让所有人都能训练”有用且无害”的模型。
这个数据集的...
FineWeb: HuggingFace大规模网络爬取预训练数据集
核心观点:FineWeb不是又一个Common Crawl包装,它是HuggingFace对”如何将野生互联网数据驯化为可训练语料”这个问题的系统性回答。万亿token规模的背后,是一套可复现的工业级数据处理pipeline。
Common Crawl很好,但太野了Common Crawl每月爬取几十亿网页,这是互联网上最大的公开数据源。问题是原始数据完全不能直接用——充斥着广告、导航栏、评论区、重复内容、低质量机器生成文本。如果直接拿来训练,模型学到的是互联网的噪声,而不是语言。
FineWeb的核心价值在于清洗和质量过滤。它不是简单地去掉HTML标签,而是:
内容提取:用启发式规则+机器学习分离正文和噪声
去重:URL级去重移除30-40%重复内容,MinHash去重处理近似重复
质量评分:基于文本连贯性、语法正确性、信息密度打分
语言检测:准确识别100+种语言,置信度评分
...
FineVision: 2400万样本的开源多模态视觉-语言数据集
核心观点:FineVision用1%的基准污染率击穿了VLM(视觉-语言模型)数据集的最大痛点——数据泄露导致的虚假性能。这个数据集证明,开源VLM完全有可能在公平评估下超越闭源模型。
基准污染:行业的脏秘密训练数据包含测试集样本,是AI领域最严重的数据泄露问题。但在多模态领域,这个问题被系统性地忽视了——因为几乎所有大规模数据集都没有做严格的污染检测。
结果是什么?论文里报告的性能数字有相当一部分是记忆而非理解。模型在MMMU、ChartQA等基准上的高分,可能只是因为训练时见过相似甚至相同的图文对。
FineVision的核心突破是1%的基准污染率——这是通过对11个主流VLM基准进行逐一检测和过滤实现的。这意味着:
用FineVision训练的模型,性能提升是真实的
基准测试结果可以信任,不是数据泄露的假象
研究对比是公平的,不同模型站在同一起跑线
对比:LAION-5B等...
Cosmopedia: 大规模合成文本数据集 - 用于小语言模型研究
核心观点:Cosmopedia不是”用大模型生成训练数据”的简单实践,它是对”小模型能否通过精心策划的合成数据达到大模型性能”这个命题的系统性验证。答案是肯定的,但前提是数据设计要足够聪明。
小模型复兴:不是开倒车在7B、13B甚至70B参数成为主流的今天,HuggingFace投入资源研究1-3B的小模型,这不是技术倒退,而是实用主义的回归。
现实是:
绝大多数实际应用不需要70B模型的能力
边缘设备、移动端、实时场景无法承受大模型的计算成本
推理成本是服务化LLM的最大成本来源
Phi-1.5(1.3B参数)证明了小模型的可能性——在特定任务上接近GPT-3.5的性能。关键是什么?不是模型架构,而是训练数据。Cosmopedia正是这个洞察的产物。
1660万条数据的”课程设计”Cosmopedia的8个子集不是随机划分,而是精心设计的能力培养路径:
数学推理(auto_ma...
MMLU-Pro: 更强大的多任务语言理解评估基准
MMLU-Pro:当大模型在原版MMLU上刷到90分时,你需要一张更难的试卷核心观点:10选项设计不是简单的”加大难度”,而是精准打击了大模型的幸运猜测和浅层模式识别,强制模型展示真实的推理能力。
GPT-4在原版MMLU上88%,Claude-3 Opus 86%,Gemini-Pro 84%——当顶尖模型都在85%以上徘徊时,这个基准已经失去了区分度。MMLU-Pro用10选项和推理导向的问题设计,让这些模型的分数直接腰斩到70%左右。
这不是为了难为模型,而是为了看清模型真正会什么、不会什么。
4选项到10选项:不只是数量变化原版MMLU的4选项意味着什么?即使完全瞎猜,期望得分25%。一个模型如果在某个领域只有模糊印象,通过排除法+合理推测,很容易把准确率提升到40-50%。
这在实际应用中是个严重问题:你以为模型”基本掌握”了某个知识领域,实际上它只是”略懂皮毛”。
MML...
MM-RLHF: 多模态大语言模型人类反馈对齐数据集
MM-RLHF:多模态RLHF的首个完整解决方案核心观点:GPT-4V、Claude-3、Gemini都在用RLHF对齐文本输出,但多模态输出怎么对齐?MM-RLHF用10维评估体系+批评型奖励模型,给出了第一个工业级的答案。
文本RLHF已经成熟——Anthropic的HH-RLHF、OpenAI的InstructGPT都验证了方法的有效性。但多模态场景复杂得多:一张图片的描述是否”好”,不仅取决于语言质量,还要看视觉细节、空间关系、伦理安全。
MM-RLHF是第一个系统性解决这个问题的数据集,16,300条样本,10维评估,27个基准验证。
为什么多模态RLHF比文本RLHF难得多文本RLHF的评估相对简单:有用性、无害性、诚实性。多模态场景要复杂一个数量级:
视觉理解维度(这是文本RLHF没有的):
忠实性:描述是否准确对应图像内容?(最容易出幻觉的地方)
视觉细节:是否捕捉...
Orca-AgentInstruct: 微软百万级合成指令数据集
AgentInstruct:当AI学会自己批改作业核心观点:微软用多代理协作重新定义了合成数据的质量上限,这不是简单的”让GPT生成训练数据”,而是一套完整的AI自我进化系统。
105万条指令数据,成本几乎为零,质量接近人工标注——微软Orca-AgentInstruct的数据让人重新思考:我们真的还需要花大价钱雇人标数据吗?
为什么AgentInstruct不是”又一个合成数据集”市面上合成数据集多如牛毛,但大多数都是”prompt engineering的产物”:写个好prompt,调用GPT-4,批量生成,完事。这种做法有个致命问题——垃圾进,垃圾出。
AgentInstruct的野心更大:它想让AI学会自己质检、自己迭代、自己优化。
三个代理角色分工明确:
内容转换代理:把网络上的非结构化知识提取成结构化信息(相当于AI版的知识图谱工程师)
种子指令生成代理:基于知识生成多...
Self-Instruct: 开创性的自生成指令数据集
Self-Instruct:点燃开源大模型革命的火种核心观点:Self-Instruct的价值不在82K条数据,而在于证明了”AI可以自己生成训练数据”这条路走得通——它直接催生了Alpaca、Vicuna等一系列开源模型,改变了大模型领域的权力格局。
2022年12月,华盛顿大学发布Self-Instruct论文时,很少人意识到这会成为改变大模型历史的里程碑。3个月后,斯坦福用同样的方法生成52K数据训练出Alpaca,证明了”穷人也能玩大模型”。
从此,大模型不再是OpenAI、Google的专利。
Self-Instruct到底做对了什么在Self-Instruct之前,训练指令遵循模型有三条路:
OpenAI的路:雇佣大量标注员+RLHF(成本:数百万美元)
Google的路:用内部数据+模板生成FLAN数据集(需要大公司资源)
学术界的路:精心设计少量高质量数据(覆盖面有...
NExT-OMNI: 基于离散流匹配的全模态基础模型
NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,通过离散流匹配范式实现任意模态间的理解和生成。模型原生支持文本、图像、视频和音频的任意组合输入输出,在多轮交互和跨模态检索任务上超越现有统一模型。
NExT-OMNI: 任意模态统一建模的技术突破核心创新:离散流匹配范式NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,其核心创新在于采用**离散流匹配(Discrete Flow Matching, DFM)**范式,突破了传统自回归架构的限制。
为什么选择离散流匹配?传统的多模态模型主要依赖自回归架构,存在以下局限:
生成效率低: 必须逐token顺序生成,无法并行
跨模态建模困难: 不同模态的离散表示难以统一
长序列性能下降: 对于视频、音频等长序列模态效果欠佳
DFM范式通过构建度量诱导的概率路径,实现了:
并行解...
Anthropic 发布 Claude Haiku 4.5:性能接近旗舰,成本仅三分之一
概述2025年10月15日,Anthropic 发布了 Claude Haiku 4.5,这是该公司最新的小型 AI 模型。虽然定位为「小型模型」,但 Haiku 4.5 的性能表现却远超预期,在编程能力上达到了旗舰模型 Sonnet 4.5 的 90%,而成本仅为 Sonnet 4 的三分之一,速度则快了两倍以上。
核心优势接近旗舰的编程能力Claude Haiku 4.5 在代码生成和调试方面表现出色,在 SWE-bench Verified 基准测试中取得了 73.3% 的成绩,仅比旗舰模型 Sonnet 4.5(77.2%)低约 5 个百分点。在 Augment 的智能编程评估中,Haiku 4.5 达到了 Sonnet 4.5 性能的 90%。这意味着开发者可以用更低的成本获得接近旗舰级的编程辅助能力。
极致的性价比Haiku 4.5 的定价策略极具竞争力:
输入: 每百...
Context7 MCP:为 LLM 提供实时代码文档的革命性工具
Context7 MCP:为 LLM 提供实时代码文档的革命性工具由 Upstash 打造的实时、版本精确的代码文档服务器,彻底解决 AI 编程助手的过时信息问题
项目信息
GitHub 仓库:https://github.com/upstash/context7
Stars:33,500+ ⭐
编程语言:TypeScript
开发团队:Upstash
分类:Development, Documentation, Code Intelligence
推荐度:4.8/5.0
维护状态:积极维护中
协议:MIT
简介Context7 MCP 是由 Upstash 团队开发的革命性 Model Context Protocol 服务器,专门解决 AI 编程助手的一个核心痛点:过时的训练数据导致错误的 API 调用和不存在的代码示例。
Context7 直接从官方文档获取最新的、...
Sentry MCP Server - AI驱动的错误追踪和调试
简介Sentry MCP Server 是 Sentry 官方开发的 Model Context Protocol 服务器,旨在为编程 AI 助手(如 Claude Code、Cursor)提供强大的错误追踪和调试能力。该服务器作为 Sentry API 的中间件,使 LLM 能够直接访问和分析 Sentry 中的错误事件、堆栈跟踪、问题历史和性能数据,极大提升了开发者的调试效率。服务器支持两种部署模式:远程 MCP(推荐,由 Sentry 托管在 mcp.sentry.dev)和本地 stdio 模式。核心特性包括 AI 驱动的事件和问题搜索、OAuth 身份验证、支持自托管和 SaaS 两种 Sentry 部署方式。该项目基于 Cloudflare 的远程 MCP 概念,设计理念是 human-in-the-loop(人在回路中),确保 AI 助手在访问敏感数据时始终需要人工授权...
MCP Server Time - 官方时间和时区转换服务器
简介MCP Server Time 是 Anthropic 官方开发的时间和时区转换服务器,作为 Model Context Protocol 生态系统的参考实现之一。该服务器为大语言模型提供了准确的时间信息获取和时区转换能力,支持全球所有 IANA 时区标准,并能自动检测和使用系统时区。服务器实现了两个核心工具:获取当前时间和时区转换,使 AI 助手能够处理各种与时间相关的任务,如安排会议、计算时差、转换时间戳等。作为官方参考实现,该服务器展示了 MCP 协议在实用工具集成方面的标准实践,代码质量高,文档完善,是学习 MCP 开发的优秀示例。
功能特性
获取当前时间 - 支持任意时区的精确时间查询
IANA 时区标准 - 支持全球所有 IANA 时区(如 America/New_York, Asia/Tokyo)
时区转换 - 在不同时区之间进行时间转换
自...