← 返回博客

界面技术栈缺失的一层

Google Flash-Lite Browser 证明 Agent 可以实时生成 UI。但当所有 Agent 都能生成页面时,谁来决定哪个更好?答案是进化。

界面技术栈缺失的一层

Google DeepMind 刚刚发布了一款可以从一句话生成完整网站的浏览器。你输入”龟背竹浇水指南”,Gemini 3.1 Flash-Lite 在两秒内写出一个完整页面——导航栏、布局、内容一应俱全。没有服务器,没有预制的 HTML。页面在你提问的瞬间诞生。

Flash-Lite Browser 是一个令人印象深刻的 demo。但它同时暴露了我们思考 Agent 界面方式中的一个结构性缺口。行业正在收敛于一种架构——CLI 服务 Agent、协议负责通信、生成式 GUI 面向人类——但这个三层技术栈缺少了关键的一环。


界面三层技术栈

Agent 生态系统中正在形成一个模式:

底层:CLI 是 Agent 的运行时。 Agent 通过文本命令操作——结构化输入、结构化输出、可组合的管道。这是它们的母语。Claude Code、GitHub Copilot CLI 和所有 MCP 连接的 Agent 都优先使用 CLI。

中层:协议连接 Agent 与世界。 MCP 连接 Agent 和工具。AG-UI 连接 Agent 和前端界面。A2UI 让 Agent 以声明式方式描述 UI 组件。一个协议三角正在成型。

表层:GUI 变成 AI 为人类生成的东西。 Flash-Lite Browser 是极端情况——整个页面都是 AI 生成的。但即便是常规的 Agent UI(聊天界面、仪表板、报告),也越来越多地由模型产出,而非由人类设计。

这个三层模型很有用。它解释了为什么专业开发者的终端使用率在两年内从 62% 跳升到 78%(Stack Overflow 开发者调查)。它解释了 Claude Code 为何在几个月内达到 10 亿美元 ARR。它也解释了 Google 为什么在尝试”生成”而非”获取”页面的浏览器。

但它描述的是架构,对动力学只字未提。


缺失的第四层:选择压力

三层模型没有回答的问题是:当一百个 Agent 都能生成 UI,你该信任哪一个?

Flash-Lite Browser 在 1.93 秒内生成了一个植物护理页面,令人惊叹。但正如 The Decoder 所指出的,“结果并不稳定——内容很快就会偏离主题。“同一个查询产生不同的布局。导航会引向不一致的页面。内容看似合理但不可靠。

这不是一个等下一代 LLM 就能解决的模型质量问题。这是一个选择问题。当界面是生成的而非设计的,你需要一种机制来评估哪种生成方式产出更好的结果——并让差的方式逐渐消亡。

在生物学中,这个机制叫自然选择。在软件领域,我们一直在构建它的等价物。

Rotifer Protocol 引入了一个竞争性评估层,模块化的能力单元——称为 Gene——通过一个乘法适应度函数进行评分:

F(g)=Srlog(1+Cutil)(1+Rrob)LRcostF(g) = \frac{S_r \cdot \log(1 + C_{util}) \cdot (1 + R_{rob})}{L \cdot R_{cost}}

成功率、社区实用性、健壮性、延迟、成本——全部度量、全部加权、全部用于排名竞争实现。高分 Gene 传播。低分 Gene 退役。选择压力被量化且持续作用。

这就是缺失的第四层:进化基础设施。不仅仅是连接 Agent 和工具(协议做的事),而是决定哪些工具存活。


协议负责连接,进化负责选择

MCP 是一个连接标准。它告诉 Agent 如何发现和调用工具。但它不评判工具好不好。

假设一个 Agent 在三个都声称能生成植物护理指南的 MCP 工具之间选择。MCP 确保 Agent 调用其中任何一个。但哪个产出的浇水时间表更准确?哪个格式更清晰?哪个幻觉更少?

没有适应度层,Agent 就没有信号。它要么随机选择,要么选第一个找到的,要么选下载量最高的——这些都不能可靠地关联到质量。

Arena 提供了这个信号。竞争中的 Gene 在标准化基准上运行。它们的适应度分数是公开的。Agent 可以查询注册表,选择给定任务中排名最高的 Gene。选择是数据驱动的,而非随意的。

这个模式——用协议发现,用进化筛选——才是完整的技术栈。


可靠性问题的重新审视

对 Flash-Lite Browser 的批评是结果不稳定。每次渲染都不同。同一查询,不同布局。

但不稳定性并非 AI 生成界面的固有特性。它是选择压力缺失的症状。当没有机制来评估哪种生成方式更好时,每种方式被使用的概率是相等的——包括差的那些。

想象一个 UI 生成 Gene 在 Arena 中竞争的世界。一个能产出一致、可读的植物护理页面的 Gene,得分会高于一个容易偏离主题的 Gene。随着时间推移,容易偏离的方式被淘汰。生态系统收敛向可靠性——不是因为有人手动调试了每个页面,而是因为适应度函数奖励了一致性。

这就是生物系统解决可靠性问题的方式。不是自上而下的设计,而是自下而上的选择。


四层,而非三层

完整的 Agent 界面技术栈不是三层,而是四层:

功能示例
CLIAgent 运行时终端命令、结构化 I/O
Protocols发现与通信MCP, AG-UI, A2UI
GUI人类可读的输出AI 生成的页面、仪表板
Evolution质量选择适应度评分、竞争排名

前三层描述 Agent 能做什么。第四层决定 哪些 Agent 做得好

Google 的 Flash-Lite Browser 是 GUI 层未来的预览。MCP 正在建立协议层。CLI 作为 Agent 运行时已经超过一年。但没有进化基础设施,这个技术栈是不完整的——漂亮的 demo 产出不可靠的结果。

界面革命是真实的。问题在于,我们是在不可靠的 Agent 输出侵蚀用户信任之前,还是之后,建立选择层。

我们选择之前。

rotifer.dev