Google DeepMind 刚刚发布了一款可以从一句话生成完整网站的浏览器。你输入”龟背竹浇水指南”，Gemini 3.1 Flash-Lite 在两秒内写出一个完整页面——导航栏、布局、内容一应俱全。没有服务器，没有预制的 HTML。页面在你提问的瞬间诞生。

Flash-Lite Browser 是一个令人印象深刻的 demo。但它同时暴露了我们思考 Agent 界面方式中的一个结构性缺口。行业正在收敛于一种架构——CLI 服务 Agent、协议负责通信、生成式 GUI 面向人类——但这个三层技术栈缺少了关键的一环。

界面三层技术栈

Agent 生态系统中正在形成一个模式：

底层：CLI 是 Agent 的运行时。 Agent 通过文本命令操作——结构化输入、结构化输出、可组合的管道。这是它们的母语。Claude Code、GitHub Copilot CLI 和所有 MCP 连接的 Agent 都优先使用 CLI。

中层：协议连接 Agent 与世界。 MCP 连接 Agent 和工具。AG-UI 连接 Agent 和前端界面。A2UI 让 Agent 以声明式方式描述 UI 组件。一个协议三角正在成型。

表层：GUI 变成 AI 为人类生成的东西。 Flash-Lite Browser 是极端情况——整个页面都是 AI 生成的。但即便是常规的 Agent UI（聊天界面、仪表板、报告），也越来越多地由模型产出，而非由人类设计。

这个三层模型很有用。它解释了为什么专业开发者的终端使用率在两年内从 62% 跳升到 78%（Stack Overflow 开发者调查）。它解释了 Claude Code 为何在几个月内达到 10 亿美元 ARR。它也解释了 Google 为什么在尝试”生成”而非”获取”页面的浏览器。

但它描述的是架构，对动力学只字未提。

缺失的第四层：选择压力

三层模型没有回答的问题是：当一百个 Agent 都能生成 UI，你该信任哪一个？

Flash-Lite Browser 在 1.93 秒内生成了一个植物护理页面，令人惊叹。但正如 The Decoder 所指出的，“结果并不稳定——内容很快就会偏离主题。“同一个查询产生不同的布局。导航会引向不一致的页面。内容看似合理但不可靠。

这不是一个等下一代 LLM 就能解决的模型质量问题。这是一个选择问题。当界面是生成的而非设计的，你需要一种机制来评估哪种生成方式产出更好的结果——并让差的方式逐渐消亡。

在生物学中，这个机制叫自然选择。在软件领域，我们一直在构建它的等价物。

Rotifer Protocol 引入了一个竞争性评估层，模块化的能力单元——称为 Gene——通过一个乘法适应度函数进行评分：

F(g) = \frac{S_r \cdot \log(1 + C_{util}) \cdot (1 + R_{rob})}{L \cdot R_{cost}}

成功率、社区实用性、健壮性、延迟、成本——全部度量、全部加权、全部用于排名竞争实现。高分 Gene 传播。低分 Gene 退役。选择压力被量化且持续作用。

这就是缺失的第四层：进化基础设施。不仅仅是连接 Agent 和工具（协议做的事），而是决定哪些工具存活。

MCP 是一个连接标准。它告诉 Agent 如何发现和调用工具。但它不评判工具好不好。

假设一个 Agent 在三个都声称能生成植物护理指南的 MCP 工具之间选择。MCP 确保 Agent 能调用其中任何一个。但哪个产出的浇水时间表更准确？哪个格式更清晰？哪个幻觉更少？

没有适应度层，Agent 就没有信号。它要么随机选择，要么选第一个找到的，要么选下载量最高的——这些都不能可靠地关联到质量。

Arena 提供了这个信号。竞争中的 Gene 在标准化基准上运行。它们的适应度分数是公开的。Agent 可以查询注册表，选择给定任务中排名最高的 Gene。选择是数据驱动的，而非随意的。

这个模式——用协议发现，用进化筛选——才是完整的技术栈。

对 Flash-Lite Browser 的批评是结果不稳定。每次渲染都不同。同一查询，不同布局。

但不稳定性并非 AI 生成界面的固有特性。它是选择压力缺失的症状。当没有机制来评估哪种生成方式更好时，每种方式被使用的概率是相等的——包括差的那些。

想象一个 UI 生成 Gene 在 Arena 中竞争的世界。一个能产出一致、可读的植物护理页面的 Gene，得分会高于一个容易偏离主题的 Gene。随着时间推移，容易偏离的方式被淘汰。生态系统收敛向可靠性——不是因为有人手动调试了每个页面，而是因为适应度函数奖励了一致性。

这就是生物系统解决可靠性问题的方式。不是自上而下的设计，而是自下而上的选择。

完整的 Agent 界面技术栈不是三层，而是四层：

前三层描述 Agent 能做什么。第四层决定 哪些 Agent 做得好。

Google 的 Flash-Lite Browser 是 GUI 层未来的预览。MCP 正在建立协议层。CLI 作为 Agent 运行时已经超过一年。但没有进化基础设施，这个技术栈是不完整的——漂亮的 demo 产出不可靠的结果。

界面革命是真实的。问题在于，我们是在不可靠的 Agent 输出侵蚀用户信任之前，还是之后，建立选择层。

我们选择之前。