过去一个季度的三个数据点,指向同一个故事。
用 Vibe Coding 平台构建的应用中,10.3% 存在严重安全漏洞——数据库无需认证即可访问、API 密钥暴露、个人财务信息对任何人公开。这来自对 Lovable 平台 1,645 个应用的扫描;安全公司 Escape 随后对 5,600 多个应用的审计发现了 2,000 多个漏洞和 400 多个暴露的密钥。
cURL——几乎每台联网设备都在使用的软件库——关闭了漏洞报告项目。不是因为预算,而是因为 AI 生成的虚假报告淹没了真正的安全发现。AI 工具普及前,大约每六份报告中有一份有效;到 2025 年底,变成了三十分之一。
GitHub 推出了新的仓库设置,允许维护者完全禁用 Pull Request。当平台本身开始构建”关闭大门”的功能时,问题已经是结构性的。
生产成本→零,筛选成本→不变
这些是同一个根因的症状:生产代码的成本崩塌了,但评估代码的成本没有变。
Vibe Coding——用自然语言生成完整应用——把原本需要几周的开发压缩到几小时。美国 App Store 提交量同比增长 56%。Skill 生态达到数万个条目。代码产出到处在加速。
但安全审计仍然需要人类专业知识。代码评审仍然需要经验丰富的工程师。架构评估仍然需要判断力。
当生产几乎免费而评估仍然昂贵时,你会看到生态学家所说的”入侵物种爆发”——在缺乏天敌的环境中,种群失控增长。
碎片化选择时代
每个平台都在发明自己的过滤器:
| 平台 | 应对 | 机制 |
|---|---|---|
| Apple | 下架 Anything,冻结 Replit/Vibecode 更新 | 守门人策展 |
| cURL | 关闭漏洞赏金 | 提高准入门槛 |
| GitHub | 新增”禁用 PR”设置 | 终止开关 |
| Ghostty | 引入 Vouch 信任系统 | 基于声誉的筛选 |
每个应对在局部是合理的。但在全局是不够的。这些是独立的有机体,各自进化出对同一环境压力的防御——没有协调,没有标准化,没有生态级机制。
生物学早已解决这个问题
生物繁殖是廉价的。一个细菌可以产生数十亿个拷贝。大多数突变是中性的或有害的。极少数能改善适应度。
生物学的答案不是”审查每一个突变”,而是自动化选择压力:不能存活的个体不会繁殖。质量是竞争的涌现属性,不是检查的结果。
软件领域的对应关系是结构性的:
| 生物学 | 软件 |
|---|---|
| 廉价繁殖 | AI 代码生成 |
| 大多数突变有害 | 大多数 AI 输出平庸或不安全 |
| 大规模人工审查不可能 | 人工代码评审无法扩展 |
| 自然选择 | ? |
缺失的层不是更多的审查者,而是自动化选择。
自动化选择需要什么
选择需要三个组件:
适应度度量。 一个函数 F(g),在正确性、性能、资源效率和安全性上对代码单元评分——通过运行它来实证评估。不是”这看起来对吗?“而是”这能用吗?表现如何?”
竞争环境。 同一能力的多个实现,在标准化输入上评估。不是开发者自选的 benchmark,而是独立定义的场景。
后果。 低适应度代码被替代。高适应度代码被传播。生态自我改善,无需任何人手动审查每一次提交。
这不是”AI 审查 AI”——那会继承生成器的盲区。这是实证测量:运行代码,观察结果,比较表现。基于代码做了什么来选择,而不是基于它声称什么。
效率悖论的解释
METR 的一项随机对照实验发现,AI 工具让经验丰富的开发者在大型代码库维护任务上慢了 19%——而开发者自认为快了 20%。
悖论在你看到时间花在哪里时就消解了:不是生成代码,而是评估 AI 输出。审查建议,检查正确性,调试 AI 幻觉出的逻辑。
生成很快。选择很慢。
如果评估是瓶颈,那么自动化评估——而不仅仅是自动化生成——才是更高杠杆的干预。
什么仍然属于人类
自动化选择处理的是定义域内的质量问题:同一能力的哪个实现表现最好?但它不处理该构建什么的问题。产品方向、伦理约束、创意愿景——这些不可被适应度度量,也不应该被度量。
Y Combinator 的 CEO 指出,即使 95% 代码由 AI 生成的创业公司,创始团队也有深厚的技术背景。AI 替代了打字,但没有替代判断。
这是对的,但不够精确。判断可以分解。“这段代码是否正确且安全?“是可度量、可自动化的。“我们应不应该构建这个功能?“不是。把两者混为一谈——把所有判断都当作同样不可自动化的——会导致”雇更多审查者”成为唯一的解决方案。
选择压力是生成与判断之间的层。它是现在就可以构建的部分。