过去一个季度的三个数据点，指向同一个故事。

用 Vibe Coding 平台构建的应用中，10.3% 存在严重安全漏洞——数据库无需认证即可访问、API 密钥暴露、个人财务信息对任何人公开。这来自对 Lovable 平台 1,645 个应用的扫描；安全公司 Escape 随后对 5,600 多个应用的审计发现了 2,000 多个漏洞和 400 多个暴露的密钥。

cURL——几乎每台联网设备都在使用的软件库——关闭了漏洞报告项目。不是因为预算，而是因为 AI 生成的虚假报告淹没了真正的安全发现。AI 工具普及前，大约每六份报告中有一份有效；到 2025 年底，变成了三十分之一。

GitHub 推出了新的仓库设置，允许维护者完全禁用 Pull Request。当平台本身开始构建”关闭大门”的功能时，问题已经是结构性的。

生产成本→零，筛选成本→不变

这些是同一个根因的症状：生产代码的成本崩塌了，但评估代码的成本没有变。

Vibe Coding——用自然语言生成完整应用——把原本需要几周的开发压缩到几小时。美国 App Store 提交量同比增长 56%。Skill 生态达到数万个条目。代码产出到处在加速。

但安全审计仍然需要人类专业知识。代码评审仍然需要经验丰富的工程师。架构评估仍然需要判断力。

当生产几乎免费而评估仍然昂贵时，你会看到生态学家所说的”入侵物种爆发”——在缺乏天敌的环境中，种群失控增长。

碎片化选择时代

每个平台都在发明自己的过滤器：

平台	应对	机制
Apple	下架 Anything，冻结 Replit/Vibecode 更新	守门人策展
cURL	关闭漏洞赏金	提高准入门槛
GitHub	新增”禁用 PR”设置	终止开关
Ghostty	引入 Vouch 信任系统	基于声誉的筛选

每个应对在局部是合理的。但在全局是不够的。这些是独立的有机体，各自进化出对同一环境压力的防御——没有协调，没有标准化，没有生态级机制。

生物学早已解决这个问题

生物繁殖是廉价的。一个细菌可以产生数十亿个拷贝。大多数突变是中性的或有害的。极少数能改善适应度。

生物学的答案不是”审查每一个突变”，而是自动化选择压力：不能存活的个体不会繁殖。质量是竞争的涌现属性，不是检查的结果。

软件领域的对应关系是结构性的：

生物学	软件
廉价繁殖	AI 代码生成
大多数突变有害	大多数 AI 输出平庸或不安全
大规模人工审查不可能	人工代码评审无法扩展
自然选择	？

缺失的层不是更多的审查者，而是自动化选择。

自动化选择需要什么

选择需要三个组件：

适应度度量。 一个函数 F(g)，在正确性、性能、资源效率和安全性上对代码单元评分——通过运行它来实证评估。不是”这看起来对吗？“而是”这能用吗？表现如何？”

竞争环境。 同一能力的多个实现，在标准化输入上评估。不是开发者自选的 benchmark，而是独立定义的场景。

后果。 低适应度代码被替代。高适应度代码被传播。生态自我改善，无需任何人手动审查每一次提交。

这不是”AI 审查 AI”——那会继承生成器的盲区。这是实证测量：运行代码，观察结果，比较表现。基于代码做了什么来选择，而不是基于它声称什么。

效率悖论的解释

METR 的一项随机对照实验发现，AI 工具让经验丰富的开发者在大型代码库维护任务上慢了 19%——而开发者自认为快了 20%。

悖论在你看到时间花在哪里时就消解了：不是生成代码，而是评估 AI 输出。审查建议，检查正确性，调试 AI 幻觉出的逻辑。

生成很快。选择很慢。

如果评估是瓶颈，那么自动化评估——而不仅仅是自动化生成——才是更高杠杆的干预。

什么仍然属于人类

自动化选择处理的是定义域内的质量问题：同一能力的哪个实现表现最好？但它不处理该构建什么的问题。产品方向、伦理约束、创意愿景——这些不可被适应度度量，也不应该被度量。

Y Combinator 的 CEO 指出，即使 95% 代码由 AI 生成的创业公司，创始团队也有深厚的技术背景。AI 替代了打字，但没有替代判断。

这是对的，但不够精确。判断可以分解。“这段代码是否正确且安全？“是可度量、可自动化的。“我们应不应该构建这个功能？“不是。把两者混为一谈——把所有判断都当作同样不可自动化的——会导致”雇更多审查者”成为唯一的解决方案。

选择压力是生成与判断之间的层。它是现在就可以构建的部分。