Google DeepMind 刚刚发布了一款可以从一句话生成完整网站的浏览器。你输入”龟背竹浇水指南”,Gemini 3.1 Flash-Lite 在两秒内写出一个完整页面——导航栏、布局、内容一应俱全。没有服务器,没有预制的 HTML。页面在你提问的瞬间诞生。
Flash-Lite Browser 是一个令人印象深刻的 demo。但它同时暴露了我们思考 Agent 界面方式中的一个结构性缺口。行业正在收敛于一种架构——CLI 服务 Agent、协议负责通信、生成式 GUI 面向人类——但这个三层技术栈缺少了关键的一环。
界面三层技术栈
Agent 生态系统中正在形成一个模式:
底层:CLI 是 Agent 的运行时。 Agent 通过文本命令操作——结构化输入、结构化输出、可组合的管道。这是它们的母语。Claude Code、GitHub Copilot CLI 和所有 MCP 连接的 Agent 都优先使用 CLI。
中层:协议连接 Agent 与世界。 MCP 连接 Agent 和工具。AG-UI 连接 Agent 和前端界面。A2UI 让 Agent 以声明式方式描述 UI 组件。一个协议三角正在成型。
表层:GUI 变成 AI 为人类生成的东西。 Flash-Lite Browser 是极端情况——整个页面都是 AI 生成的。但即便是常规的 Agent UI(聊天界面、仪表板、报告),也越来越多地由模型产出,而非由人类设计。
这个三层模型很有用。它解释了为什么专业开发者的终端使用率在两年内从 62% 跳升到 78%(Stack Overflow 开发者调查)。它解释了 Claude Code 为何在几个月内达到 10 亿美元 ARR。它也解释了 Google 为什么在尝试”生成”而非”获取”页面的浏览器。
但它描述的是架构,对动力学只字未提。
缺失的第四层:选择压力
三层模型没有回答的问题是:当一百个 Agent 都能生成 UI,你该信任哪一个?
Flash-Lite Browser 在 1.93 秒内生成了一个植物护理页面,令人惊叹。但正如 The Decoder 所指出的,“结果并不稳定——内容很快就会偏离主题。“同一个查询产生不同的布局。导航会引向不一致的页面。内容看似合理但不可靠。
这不是一个等下一代 LLM 就能解决的模型质量问题。这是一个选择问题。当界面是生成的而非设计的,你需要一种机制来评估哪种生成方式产出更好的结果——并让差的方式逐渐消亡。
在生物学中,这个机制叫自然选择。在软件领域,我们一直在构建它的等价物。
Rotifer Protocol 引入了一个竞争性评估层,模块化的能力单元——称为 Gene——通过一个乘法适应度函数进行评分:
成功率、社区实用性、健壮性、延迟、成本——全部度量、全部加权、全部用于排名竞争实现。高分 Gene 传播。低分 Gene 退役。选择压力被量化且持续作用。
这就是缺失的第四层:进化基础设施。不仅仅是连接 Agent 和工具(协议做的事),而是决定哪些工具存活。
协议负责连接,进化负责选择
MCP 是一个连接标准。它告诉 Agent 如何发现和调用工具。但它不评判工具好不好。
假设一个 Agent 在三个都声称能生成植物护理指南的 MCP 工具之间选择。MCP 确保 Agent 能调用其中任何一个。但哪个产出的浇水时间表更准确?哪个格式更清晰?哪个幻觉更少?
没有适应度层,Agent 就没有信号。它要么随机选择,要么选第一个找到的,要么选下载量最高的——这些都不能可靠地关联到质量。
Arena 提供了这个信号。竞争中的 Gene 在标准化基准上运行。它们的适应度分数是公开的。Agent 可以查询注册表,选择给定任务中排名最高的 Gene。选择是数据驱动的,而非随意的。
这个模式——用协议发现,用进化筛选——才是完整的技术栈。
可靠性问题的重新审视
对 Flash-Lite Browser 的批评是结果不稳定。每次渲染都不同。同一查询,不同布局。
但不稳定性并非 AI 生成界面的固有特性。它是选择压力缺失的症状。当没有机制来评估哪种生成方式更好时,每种方式被使用的概率是相等的——包括差的那些。
想象一个 UI 生成 Gene 在 Arena 中竞争的世界。一个能产出一致、可读的植物护理页面的 Gene,得分会高于一个容易偏离主题的 Gene。随着时间推移,容易偏离的方式被淘汰。生态系统收敛向可靠性——不是因为有人手动调试了每个页面,而是因为适应度函数奖励了一致性。
这就是生物系统解决可靠性问题的方式。不是自上而下的设计,而是自下而上的选择。
四层,而非三层
完整的 Agent 界面技术栈不是三层,而是四层:
| 层 | 功能 | 示例 |
|---|---|---|
| CLI | Agent 运行时 | 终端命令、结构化 I/O |
| Protocols | 发现与通信 | MCP, AG-UI, A2UI |
| GUI | 人类可读的输出 | AI 生成的页面、仪表板 |
| Evolution | 质量选择 | 适应度评分、竞争排名 |
前三层描述 Agent 能做什么。第四层决定 哪些 Agent 做得好。
Google 的 Flash-Lite Browser 是 GUI 层未来的预览。MCP 正在建立协议层。CLI 作为 Agent 运行时已经超过一年。但没有进化基础设施,这个技术栈是不完整的——漂亮的 demo 产出不可靠的结果。
界面革命是真实的。问题在于,我们是在不可靠的 Agent 输出侵蚀用户信任之前,还是之后,建立选择层。
我们选择之前。