代码堆得越多系统崩得越快：AI编程的持续演进困境与破局

三年前我第一次用AI辅助编程，那时的兴奋感至今记忆犹新。单函数生成，准确率惊人；短脚本编写，效率翻倍提升。我天真地以为，AI编程的终局已近在眼前。代码堆得越多系统崩得越快：AI编程的持续演进困境与破局 IT技术

转折：从单函数到系统维护的距离

然而当我尝试用AI维护一个持续迭代的项目时，现实给了我沉重一击。代码确实在增长，功能确实在增加，但系统的脆弱性也在以指数级方式累积。每一次看似成功的功能迭代，都在为下一次崩溃埋下伏笔。代码堆得越多系统崩得越快：AI编程的持续演进困境与破局 IT技术

这并非我一个人的感受。腾讯首席AI科学家姚顺雨在博客《TheSecondHalf》中敏锐指出：真实编程任务是连续依赖的，而非独立并行的。这个看似简单的洞察，揭示了当下AI编程评测与真实体验之间那道难以弥合的鸿沟。代码堆得越多系统崩得越快：AI编程的持续演进困境与破局 IT技术

为什么独立测评高分模型在长周期场景中集体折戟？答案在于评测范式本身。代码堆得越多系统崩得越快：AI编程的持续演进困境与破局 IT技术

主流编程benchmark多数聚焦独立任务：给定issue或PR，在静态代码快照上完成修复，验证通过即测评完成。这种范式简化了问题，却也剥离了软件开发最本质的特征——演进性。代码堆得越多系统崩得越快：AI编程的持续演进困境与破局 IT技术

真实环境是复杂且动态的。随着时间推移，即便是数月前的微小bug，经过版本迭代也可能像滚雪球般越滚越大，最终导致系统崩溃。静态评测环境恰恰是一种过于理想的状态。代码堆得越多系统崩得越快：AI编程的持续演进困境与破局 IT技术

南加州大学、斯坦福大学、普林斯顿大学等组成的联合团队发布了全新评估基准EvoClaw，首次将时间维度引入AI编程能力评估体系。代码堆得越多系统崩得越快：AI编程的持续演进困境与破局 IT技术

核心创新在于里程碑（Milestone）概念：对软件演进历史进行重构，提取兼具语义完整性和演进依赖关系保留能力的功能单元。AI需在同一代码库上按序完成多个功能单元，每一步产出既保留下来又成为下一步的起点。代码堆得越多系统崩得越快：AI编程的持续演进困境与破局 IT技术

为支持从开源代码库中提取高质量演进历史，研究团队基于顶级AI能力提出了DeepCommit自动化流水线，将嘈杂的Git开发记录重构为可验证、功能内聚的里程碑任务依赖图。代码堆得越多系统崩得越快：AI编程的持续演进困境与破局 IT技术

EvoClaw覆盖Python、Java、Go、Rust、TypeScript五种主流语言，项目横跨最长750天真实开发周期。代码堆得越多系统崩得越快：AI编程的持续演进困境与破局 IT技术

实验结果令人震惊：独立评测得分普遍在80%至90%的顶尖模型，在EvoClaw基准测试后集体断崖式下降。综合得分最高的ClaudeOpus4.6仅获得38.03分，GPT5.3Codex以28.88分位居第二。完整解决率方面，得分最高的Gemini3Pro也只有13.37%。

更关键的是，无论开发窗口多长，所有模型表现最终都会撞上天花板。任务执行顺序越靠后、所处DAG层级越深，分数和解决率就越低。饱和函数外推结果表明，即便是最优的Opus4.6，累计分数也会被卡死在45%左右的渐近线上。

当将整体分数分解为召回率与精确率时，一个意味深长的现象浮现：召回率几乎呈线性增长。这意味着，即便代码库变得越来越混乱、越来越脆弱，Agent依然擅长实现当前给定的新目标功能。

真正的瓶颈在于精确率。Agent难以维护现有系统，回归错误积累的速度远超修复速度。错误链分析框架揭示：新问题的产生速度并不会加快，模型甚至会实质性地被动修复部分历史错误，但前置错误的累积速度远超修复速度，最终陷入"技术债破产"。

EvoClaw为AIHarnessEngineering提供了通用评估playground。当Agent表现出异常积极的迭代行为，或不断编辑、不断验证却无果时，很可能是遇到了困难。此时可在对应位置构造护栏，尽早发现问题、及时人工介入。

这一研究证明，我们正走在正确的道路上。AI的长期编程能力尚未遇到瓶颈，能够随时间稳定提升。有潜力在某一天，由榜单分数的量变，转化为改变世界的质变。