AI Agent评估体系全面指南：从理论到实践

Posted on 一月 9, 2026

AI Agent评估体系全面指南：从理论到实践

来源: Anthropic Engineering Blog
作者: Mikaela Grace, Jeremy Hadfield, Rodrigo Olivares, Jiri De Jonghe
发布日期: 2026-01-09
分类: ai-agents

概述

Anthropic发布了一篇关于AI Agent评估体系的全面指南，系统阐述了评估的核心概念、三种评分器类型（代码、模型、人工）、五类Agent的评估方法（编码、对话、研究、计算机操作、通用），以及从零开始构建评估体系的完整八步路线图。这是目前最全面、最具实操性的Agent评估实践指南之一。

核心内容

为什么需要Agent评估

没有结构化测试的团队陷入被动循环——只在用户遇到问题后才发现问题。”Agent变差了”却无法量化时，就到了构建评估体系的时候。

跳过评估的代价：

无法区分真正的回归和随机噪声
调试完全被动：投诉 -> 复现 -> 修复 -> 祈祷没新回归
新模型采用需要数周手动测试而非数天

评估的核心术语

Task/Problem：包含定义输入和成功标准的单个测试
Trial：单次任务尝试；多次Trial缓解输出可变性
Grader：评分Agent表现的逻辑；支持多评分器多断言
Transcript/Trace：完整记录，含输出、工具调用、推理和中间结果
Outcome：最终环境状态（如数据库是否有预订记录，而非仅确认消息）
Evaluation Suite：衡量特定能力或行为的相关任务集合

三种评分器类型

代码评分器

方法：字符串匹配、正则/模糊匹配、二元测试、静态分析、结果验证、工具调用验证
优势：快速、廉价、客观、可复现、可调试
劣势：对合理变体脆弱，缺乏细微判断

模型评分器

方法：基于评分表的打分、自然语言断言、配对比较、多评委共识
优势：灵活、可扩展、捕捉细微差别、处理开放式任务
劣势：非确定性、成本更高、需要人工校准

人工评分器

方法：专家审查、众包判断、抽样检查、A/B测试、评分者间一致性
优势：金标准质量，匹配专家判断，校准模型评分器
劣势：昂贵、缓慢、通常需要领域专家

能力评估 vs 回归评估

能力评估：问”这个Agent能做好什么？”从低通过率起步，瞄准薄弱领域
回归评估：问”Agent是否仍能可靠处理任务？”维持近100%通过率，一旦下降就表明有问题
毕业机制：能力评估饱和（达到高通过率）后可升级为回归套件

五类Agent的评估方法

1. 编码Agent

确定性评分器天然适用——代码能否运行？测试是否通过？SWE-bench Verified一年内通过率从40%提升到80%+。

task:
  id: "fix-auth-bypass_1"
  graders:
    - type: deterministic_tests
      required: [test_empty_pw_rejected.py]
    - type: llm_rubric
      rubric: prompts/code_quality.md
    - type: static_analysis
      commands: [ruff, mypy, bandit]

2. 对话Agent

需要模拟用户（第二个LLM），成功是多维的：工单解决（状态检查）、对话轮次限制、适当语调（LLM评分表）。tau-Bench和tau2-Bench是代表性基准。

3. 研究Agent

挑战包括专家意见分歧、地面真实不断变化、开放式输出。组合策略：接地性检查、覆盖率检查、来源质量检查。BrowseComp测试开放网络发现能力。

4. 计算机操作Agent

通过人类界面交互。WebArena测试浏览器任务（URL和页面状态检查+后端验证），OSWorld扩展到完整操作系统控制。

非确定性处理

Agent行为在不同运行间存在差异。两个关键指标：

Pass@k：k次尝试中至少成功一次的概率。k增大则概率增大。适用于”一次成功即可”的工具场景。
Pass^k：k次尝试全部成功的概率。k增大则概率减小。75%成功率做3次试验：(0.75)^3 约 42%。适用于”每次都要可靠”的面客场景。

从零到一的八步路线图

尽早开始：20-50个来自真实失败的简单任务即可起步
从手动检查开始：将bug报告和用户投诉转化为测试用例
编写无歧义任务：两个领域专家能独立达成相同判定
构建平衡问题集：测试应该发生和不应该发生的场景
构建稳定评估环境：每次Trial隔离的干净环境
精心设计评分器：评估输出而非路径，避免惩罚创造性
检查轨迹：阅读大量Trial的轨迹和评分
监控能力评估饱和并长期维护

评估驱动开发

先构建定义计划能力的评估，再迭代Agent直到表现良好。在Anthropic内部，对即将发布模型能力的预测通过低通过率能力评估变得可见。新模型发布后，哪些预测成功一目了然。

瑞士奶酪安全模型

方法	优势	劣势
自动化评估	快速迭代、可复现、无用户影响	需要前期投入，如与实际不对齐则产生虚假信心
生产监控	揭示真实用户行为	被动（用户先遇到问题）
A/B测试	衡量实际用户结果	慢（需要天/周），需足够流量
用户反馈	发现意外问题	稀疏、自选择、偏向严重问题
人工审查	建立失败模式直觉	耗时、不可扩展

没有单一层能捕捉所有问题。多层组合确保遗漏被其他层捕获。

评估框架附录

文章还简要介绍了主要评估框架：Harbor（容器化环境评估）、Promptfoo（轻量YAML配置）、Braintrust（离线评估+生产可观测性）、LangSmith（LangChain集成）、Langfuse（自托管开源方案）。结论是框架选择远不如投入高质量测试用例和迭代评分器重要。

个人评价

这是我读过的最全面的Agent评估实践指南。文章不仅覆盖了理论框架，更重要的是包含了大量来自Anthropic内部实践的真实经验——包括Claude Code评估体系的演进、Opus 4.5在CORE-Bench上因评估问题导致分数偏低（42%修复后达95%）的案例等。”评估驱动开发”的理念特别有价值，它将评估从质量保证工具提升为产品开发方法论。对于任何正在构建AI Agent产品的团队，这篇文章应该是必读材料。

评分: 4.95/5.0

分类置信度: high

相关链接: