← 返回博客

当代码生成成本趋零

AI 让代码生成几乎免费,但质量筛选仍然昂贵。结果:一场只有碎片化解决方案的结构性危机。

当代码生成成本趋零

过去一个季度的三个数据点,指向同一个故事。

用 Vibe Coding 平台构建的应用中,10.3% 存在严重安全漏洞——数据库无需认证即可访问、API 密钥暴露、个人财务信息对任何人公开。这来自对 Lovable 平台 1,645 个应用的扫描;安全公司 Escape 随后对 5,600 多个应用的审计发现了 2,000 多个漏洞和 400 多个暴露的密钥。

cURL——几乎每台联网设备都在使用的软件库——关闭了漏洞报告项目。不是因为预算,而是因为 AI 生成的虚假报告淹没了真正的安全发现。AI 工具普及前,大约每六份报告中有一份有效;到 2025 年底,变成了三十分之一。

GitHub 推出了新的仓库设置,允许维护者完全禁用 Pull Request。当平台本身开始构建”关闭大门”的功能时,问题已经是结构性的。


生产成本→零,筛选成本→不变

这些是同一个根因的症状:生产代码的成本崩塌了,但评估代码的成本没有变。

Vibe Coding——用自然语言生成完整应用——把原本需要几周的开发压缩到几小时。美国 App Store 提交量同比增长 56%。Skill 生态达到数万个条目。代码产出到处在加速。

但安全审计仍然需要人类专业知识。代码评审仍然需要经验丰富的工程师。架构评估仍然需要判断力。

当生产几乎免费而评估仍然昂贵时,你会看到生态学家所说的”入侵物种爆发”——在缺乏天敌的环境中,种群失控增长。


碎片化选择时代

每个平台都在发明自己的过滤器:

平台应对机制
Apple下架 Anything,冻结 Replit/Vibecode 更新守门人策展
cURL关闭漏洞赏金提高准入门槛
GitHub新增”禁用 PR”设置终止开关
Ghostty引入 Vouch 信任系统基于声誉的筛选

每个应对在局部是合理的。但在全局是不够的。这些是独立的有机体,各自进化出对同一环境压力的防御——没有协调,没有标准化,没有生态级机制。


生物学早已解决这个问题

生物繁殖是廉价的。一个细菌可以产生数十亿个拷贝。大多数突变是中性的或有害的。极少数能改善适应度。

生物学的答案不是”审查每一个突变”,而是自动化选择压力:不能存活的个体不会繁殖。质量是竞争的涌现属性,不是检查的结果。

软件领域的对应关系是结构性的:

生物学软件
廉价繁殖AI 代码生成
大多数突变有害大多数 AI 输出平庸或不安全
大规模人工审查不可能人工代码评审无法扩展
自然选择

缺失的层不是更多的审查者,而是自动化选择。


自动化选择需要什么

选择需要三个组件:

适应度度量。 一个函数 F(g),在正确性、性能、资源效率和安全性上对代码单元评分——通过运行它来实证评估。不是”这看起来对吗?“而是”这能用吗?表现如何?”

竞争环境。 同一能力的多个实现,在标准化输入上评估。不是开发者自选的 benchmark,而是独立定义的场景。

后果。 低适应度代码被替代。高适应度代码被传播。生态自我改善,无需任何人手动审查每一次提交。

这不是”AI 审查 AI”——那会继承生成器的盲区。这是实证测量:运行代码,观察结果,比较表现。基于代码做了什么来选择,而不是基于它声称什么


效率悖论的解释

METR 的一项随机对照实验发现,AI 工具让经验丰富的开发者在大型代码库维护任务上慢了 19%——而开发者自认为快了 20%。

悖论在你看到时间花在哪里时就消解了:不是生成代码,而是评估 AI 输出。审查建议,检查正确性,调试 AI 幻觉出的逻辑。

生成很快。选择很慢。

如果评估是瓶颈,那么自动化评估——而不仅仅是自动化生成——才是更高杠杆的干预。


什么仍然属于人类

自动化选择处理的是定义域内的质量问题:同一能力的哪个实现表现最好?但它不处理该构建什么的问题。产品方向、伦理约束、创意愿景——这些不可被适应度度量,也不应该被度量。

Y Combinator 的 CEO 指出,即使 95% 代码由 AI 生成的创业公司,创始团队也有深厚的技术背景。AI 替代了打字,但没有替代判断。

这是对的,但不够精确。判断可以分解。“这段代码是否正确且安全?“是可度量、可自动化的。“我们应不应该构建这个功能?“不是。把两者混为一谈——把所有判断都当作同样不可自动化的——会导致”雇更多审查者”成为唯一的解决方案。

选择压力是生成与判断之间的层。它是现在就可以构建的部分。