设计抗AI技术评估:Anthropic的三轮迭代之旅

设计抗AI技术评估:Anthropic的三轮迭代之旅

来源: Anthropic Engineering Blog
作者: Tristan Hume (Performance Optimization Team Lead)
发布日期: 2026-01-21
分类: ai-agents

概述

Anthropic性能优化团队负责人Tristan Hume记录了团队在三轮迭代中维护高预测性技术招聘评估的过程。随着Claude模型能力不断增强,每个版本的性能工程笔试都被连续击败,团队不得不持续创新评估设计。文章揭示了一个根本性矛盾:模拟真实工作曾是评估成功的关键,但AI在已知领域的快速进步使得”现实性可能已是我们无法承受的奢侈品”。

核心内容

问题的本质

技术招聘评估面临根本性挑战:今天能有效区分人类技能水平的笔试,明天可能被AI模型轻松解决。Anthropic亲身经历了这一挑战的三轮迭代。

第一版:类TPU加速器优化(使用18个月)

设计原则:

  • 代表真实工作内容
  • 高信号量,宽评分分布
  • 无特定领域知识要求
  • 有趣味性

评估基于Python模拟器,模拟类TPU加速器环境,要求候选人完成并行树遍历优化任务。最初4小时时限(后缩短为2小时),从约1000名候选人中成功招聘了数十名工程师。

终结:2025年5月,Claude Opus 4在时间约束内超越大部分人类应聘者。

第二版:深化微优化

团队调整策略:

  • 强调巧妙的优化洞察而非代码量
  • 增加新机器特性以增加深度
  • 移除已被Claude解决的多核优化
  • 维持2小时时限

终结:Claude Opus 4.5在2小时内匹配人类最佳表现,能识别内存带宽瓶颈并发现高级解决方案。

失败的数据转置方案

基于真实TPU寄存器优化挑战,专注于避免bank冲突的高效数据转置。然而Claude训练数据中包含大量该领域知识,甚至能发现作者未预期的优化。

最终方案:Zachtronics风格谜题

受编程谜题游戏启发的全新范式:

  • 高度受限的指令集和极小程序空间
  • 需要非常规编程思维方式
  • 刻意排除可视化和调试工具
  • 是否自建工具成为评估的一部分

性能基准数据

配置 模拟时钟周期(越低越好)
Claude Opus 4(大量推理时间) 2164
Claude Opus 4.5(随意会话,匹配人类2小时最佳) 1790
Claude Opus 4.5(2小时测试环境) 1579
Claude Sonnet 4.5(扩展计算) 1548
Claude Opus 4.5(11.5小时) 1487
Claude Opus 4.5(改进环境,多小时) 1363

关键洞察

  1. 现实性与区分度的根本矛盾:原始评估成功依赖于模拟真实工作,但AI在已知领域的快速进步使得现实性反而成为劣势。新方案需要足够新颖(分布外)的问题才能维持信号。

  2. 时间维度的残存优势:人类专家在”足够长的时间尺度”上仍保持优势,但限时评估必须使用分布外问题。

  3. 持续军备竞赛:这不是一次性问题,而是需要像安全研究一样持续迭代的过程。

开放挑战

Anthropic公开了原始笔试供无限时间竞赛。目标:打败1487周期(Claude Opus 4.5发布时的表现)。低于此阈值的提交可发送至[email protected]

个人评价

这篇文章的价值超越了招聘评估本身。它从一个独特的视角展示了AI能力进步的速度和影响范围——不仅是在抽象基准上,而是在真实工程任务中。Anthropic公开分享自己被”自家AI击败”的经历,体现了罕见的坦诚。文章提出的”现实性可能已是奢侈品”这一洞察,对整个AI评估领域都有深远的启示意义。Zachtronics风格谜题的解决方案也颇具创意,展示了当传统方法失效时如何从其他领域寻找灵感。


评分: 4.75/5.0

分类置信度: high

相关链接:

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero