
AI 对经验丰富的开源开发者生产力的影响:METR 研究
METR 通过随机对照试验发现,2025年初的 AI 工具反而让经验丰富的开源开发者完成任务的时间增加了 19%,这与开发者自身和专家的预期截然相反。
原文来源:METR — METR 的随机对照试验显示,2025 年初的 AI 工具让经验丰富的开源开发者完成任务的时间反而增加了 19%,与开发者和专家的预期形成鲜明反差。
研究背景与动机
现有的编程与智能体基准测试虽然为了解 AI 能力提供了有价值的参考,但它们往往以牺牲真实性为代价来换取规模和效率。这些测试任务通常是自包含的,不需要理解既有代码库的上下文,并且采用算法化的评分方式,无法捕捉许多重要的实际能力。这种特性可能导致基准测试高估 AI 的能力。另一方面,由于基准测试在没有真人实时交互的情况下运行,模型可能仅仅因为一些小瓶颈而未能完成任务,尽管它们已经取得了实质性进展——而这些瓶颈在真实使用场景中人类可以轻松解决。这又可能导致我们低估模型的能力。总的来说,直接将基准测试分数转化为实际影响是相当困难的。
评估 AI 在真实世界中的影响还有一个重要原因:更好地理解 AI 对 AI 研发本身的加速作用,这可能带来重大风险。例如,极快的 AI 进展可能导致监管或安全防护措施的失效。测量 AI 对软件开发者生产力的影响,能够为基准测试提供互补性证据,帮助我们更全面地了解 AI 对 AI 研发加速的整体影响。
研究方法
为了直接测量 AI 工具对软件开发的实际影响,METR 招募了 16 名经验丰富的开源开发者。这些开发者来自大型开源代码库(平均超过 2.2 万星标、100 万行代码),并且已经持续贡献多年。每位开发者提供了一系列对他们所在仓库真正有价值的真实问题,包括 bug 修复、功能新增和代码重构等,总计 246 个问题。这些问题本应是开发者日常工作的一部分。
随后,研究者将每个问题随机分配到「允许使用 AI」或「禁止使用 AI」两组中。在允许使用 AI 的情况下,开发者可以自由选择任何工具(研究中主要使用 Cursor Pro 配合 Claude 3.5/3.7 Sonnet,这是当时的前沿模型);在禁止的情况下,开发者则完全不能使用生成式 AI 辅助。开发者完成这些平均耗时约两小时的任务时需要录屏,并自行报告实际花费的实现时间。作为参与研究的报酬,开发者获得每小时 150 美元的补偿。
核心发现:AI 反而让开发者变慢
研究结果令人意外:当开发者被允许使用 AI 工具时,他们完成任务的时间比不使用 AI 时长了 19%。这是一个显著的效率下降,与开发者的信念和专家的预测完全相反。更引人注目的是认知与现实的巨大落差——开发者原本预期 AI 能让他们提速 24%,而即使在亲身体验了效率下降之后,他们仍然相信 AI 让自己提速了 20%。
这种预期与现实的背离揭示了一个重要现象:人类对 AI 辅助的主观感受可能与客观效率存在系统性偏差。开发者在使用 AI 的过程中可能感受到了「更流畅」或「更轻松」的体验,但这种主观舒适感并未转化为实际的时间节省。
结果解读的边界
METR 在发布结果时非常谨慎地界定了研究的适用范围,明确列出了四项不能从本研究中得出的结论:
- 不能推断 AI 对大多数开发者无效。本研究的开发者和代码库并不代表软件开发的多数或主流场景。
- 不能推断 AI 在其他领域无效。研究仅聚焦于软件开发领域。
- 不能推断未来的 AI 工具在此场景下仍无效。AI 进展难以预测,过去五年已经发生了实质性的技术飞跃。
- 不能推断现有 AI 系统无法通过更好的使用方式实现正收益。Cursor 并未采样大量 LLM token,其提示工程和脚手架设计可能并非最优,而针对特定领域或代码库的微调、少样本学习等方法可能带来正向加速。
影响因素分析
研究团队调查了 20 个可能导致效率下降的潜在因素,发现其中 5 个因素可能有实质性贡献。同时,他们排除了许多实验设计上的干扰因素:开发者确实使用了前沿模型、遵守了分组规定、没有因为难度差异而选择性放弃问题(例如放弃难的非 AI 任务从而降低该组平均难度),并且无论是否使用 AI,提交的代码质量(PR)都相似。效率下降的现象在不同的结果度量方式、不同的估计方法和多种数据子集分析中都能稳定观察到。
如何理解这一矛盾现象
那么,如何将这些 RCT 结果与 AI 在基准测试中的出色表现,以及大量关于 AI 有用性的轶事报告和 AI 工具的广泛普及相协调呢?这些不同来源的证据给出了部分矛盾的答案。METR 提出了三种主要的假设框架来理解这种矛盾:
假设一:RCT 低估了 AI 的真实能力
基准测试和轶事报告基本正确,而本研究的方法论或特定场景设置存在某些问题,使其不同于其他重要场景。例如,本研究中开发者通常不会尝试从模型采样数百或数千条轨迹,而基准测试中的自主智能体可能采样数百万 token。此外,像 Cursor 这样的工具可能存在显著的学习曲线效应——本研究的开发者通常只在研究前后使用几十小时 Cursor,而熟练掌握可能需要数百小时。
假设二:基准测试和轶事报告高估了能力
RCT 结果基本正确,而基准分数和轶事报告高估了模型的实际能力(可能各自有不同的原因)。基准测试可能仅测量了定义明确、可算法化评分的任务,而遗漏了真实世界中隐含的复杂要求(如文档规范、测试覆盖率、代码风格等)。同时,本研究提供了强有力的证据表明,关于效率提升的轶事报告和主观估计可能非常不准确。
假设三:不同证据来源测量的是不同场景
三种方法论基本都是正确的,但它们测量的是真实任务分布中不同难度的子集。RCT 关注的是大型高质量开源代码库的 PR 任务,要求满足风格、测试和文档等隐性标准;基准测试关注可算法化评分的特定任务;而轶事报告涵盖的是多样化的应用场景,其中用户可能只需要一次性原型或研究代码。
对独立开发者的启示
对于独立开发者和一人创业者而言,这项研究提供了几个值得深思的洞见。
首先,工具的选择需要基于实际测量,而非主观感受。开发者对 AI 工具效率的主观认知可能与客观数据存在显著偏差。在决定是否将 AI 工具纳入核心工作流时,不妨用自己的实际项目做小规模对照测试,而不是依赖「感觉更快了」这种模糊印象。
其次,学习曲线效应不容忽视。如果前沿 AI 编码工具需要数百小时才能发挥真正的加速作用,那么独立开发者在评估工具价值时需要给予足够的适应期,而不是在初步尝试后就下结论。对于时间有限的独立开发者,这意味着需要权衡学习投入与预期回报。
第三,高质量标准下的 AI 表现可能更保守。本研究的代码库具有极高的质量标准,包含大量隐性要求。对于独立项目而言,如果质量要求相对宽松,AI 工具可能表现出不同的效率特征。这提示我们,AI 工具的适用性高度依赖于具体场景的质量阈值。
第四,AI 对 AI 研发的加速效应值得警惕。METR 指出,如果 AI 系统能够在类似本研究的真实场景中显著加速开发者,这可能预示着 AI 研发本身的快速加速,进而带来监管失效、安全防护措施崩溃或权力过度集中等风险。对于依赖技术生态的独立开发者而言,这种系统性风险可能影响长期的技术选择和商业策略。
研究局限与未来方向
本研究的样本量为 16 名开发者,虽然随机对照试验的设计增强了因果推断的可靠性,但样本规模限制了结果向更广泛开发者群体推广的能力。此外,研究发生在 2025 年初,使用的主要是 Claude 3.5/3.7 Sonnet 和 Cursor Pro,而 AI 工具的能力正在快速演进。METR 已经在 2026 年 2 月发布了关于 2025 年末 AI 工具生产力影响的新数据,显示这一领域仍在快速变化。
METR 计划继续运用这一方法论追踪 AI 工具对开发者效率影响的趋势变化。这种基于真实世界随机对照试验的评估方法,相比基准测试更难以被「刷分」或针对性优化,因此能够为理解 AI 能力的真实进展提供独特的互补视角。
结语
METR 的这项研究为当下关于 AI 编程工具效果的讨论注入了一剂清醒剂。它提醒我们,在评估新技术的影响时,随机对照试验的客观数据可能与广泛传播的主观印象存在显著差异。对于独立开发者而言,这意味着在拥抱 AI 工具的同时,保持批判性思维和基于数据的决策习惯尤为重要。AI 工具无疑在快速进化,但它们在特定场景下的实际效果,仍然需要通过严谨的研究来验证,而不是仅仅依赖市场营销或个人直觉。
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://aprilzz.com/indie/ai-impact-experienced-developers