设计抗AI技术评估:Anthropic的三轮迭代之旅
来源: Anthropic Engineering Blog
作者: Tristan Hume (Performance Optimization Team Lead)
发布日期: 2026-01-21
分类: ai-agents
概述
Anthropic性能优化团队负责人Tristan Hume记录了团队在三轮迭代中维护高预测性技术招聘评估的过程。随着Claude模型能力不断增强,每个版本的性能工程笔试都被连续击败,团队不得不持续创新评估设计。文章揭示了一个根本性矛盾:模拟真实工作曾是评估成功的关键,但AI在已知领域的快速进步使得”现实性可能已是我们无法承受的奢侈品”。
核心内容
问题的本质
技术招聘评估面临根本性挑战:今天能有效区分人类技能水平的笔试,明天可能被AI模型轻松解决。Anthropic亲身经历了这一挑战的三轮迭代。
第一版:类TPU加速器优化(使用18个月)
设计原则:
- 代表真实工作内容
- 高信号量,宽评分分布
- 无特定领域知识要求
- 有趣味性
评估基于Python模拟器,模拟类TPU加速器环境,要求候选人完成并行树遍历优化任务。最初4小时时限(后缩短为2小时),从约1000名候选人中成功招聘了数十名工程师。
终结:2025年5月,Claude Opus 4在时间约束内超越大部分人类应聘者。
第二版:深化微优化
团队调整策略:
- 强调巧妙的优化洞察而非代码量
- 增加新机器特性以增加深度
- 移除已被Claude解决的多核优化
- 维持2小时时限
终结:Claude Opus 4.5在2小时内匹配人类最佳表现,能识别内存带宽瓶颈并发现高级解决方案。
失败的数据转置方案
基于真实TPU寄存器优化挑战,专注于避免bank冲突的高效数据转置。然而Claude训练数据中包含大量该领域知识,甚至能发现作者未预期的优化。
最终方案:Zachtronics风格谜题
受编程谜题游戏启发的全新范式:
- 高度受限的指令集和极小程序空间
- 需要非常规编程思维方式
- 刻意排除可视化和调试工具
- 是否自建工具成为评估的一部分
性能基准数据
| 配置 | 模拟时钟周期(越低越好) |
|---|---|
| Claude Opus 4(大量推理时间) | 2164 |
| Claude Opus 4.5(随意会话,匹配人类2小时最佳) | 1790 |
| Claude Opus 4.5(2小时测试环境) | 1579 |
| Claude Sonnet 4.5(扩展计算) | 1548 |
| Claude Opus 4.5(11.5小时) | 1487 |
| Claude Opus 4.5(改进环境,多小时) | 1363 |
关键洞察
现实性与区分度的根本矛盾:原始评估成功依赖于模拟真实工作,但AI在已知领域的快速进步使得现实性反而成为劣势。新方案需要足够新颖(分布外)的问题才能维持信号。
时间维度的残存优势:人类专家在”足够长的时间尺度”上仍保持优势,但限时评估必须使用分布外问题。
持续军备竞赛:这不是一次性问题,而是需要像安全研究一样持续迭代的过程。
开放挑战
Anthropic公开了原始笔试供无限时间竞赛。目标:打败1487周期(Claude Opus 4.5发布时的表现)。低于此阈值的提交可发送至[email protected]。
个人评价
这篇文章的价值超越了招聘评估本身。它从一个独特的视角展示了AI能力进步的速度和影响范围——不仅是在抽象基准上,而是在真实工程任务中。Anthropic公开分享自己被”自家AI击败”的经历,体现了罕见的坦诚。文章提出的”现实性可能已是奢侈品”这一洞察,对整个AI评估领域都有深远的启示意义。Zachtronics风格谜题的解决方案也颇具创意,展示了当传统方法失效时如何从其他领域寻找灵感。
评分: 4.75/5.0
分类置信度: high
相关链接: