封闭 AI 产品已经开始相互蚕食价格。
2023 年 GPT-4 推出时是每百万输入 token $30。等你读到这段文字时,等同能力的报价已经掉到每百万 token $0.60 以下——三年不到的时间,一百倍的塌缩。Anthropic、Google、以及中国所有 frontier 实验室,都在同一条曲线上。没人对此满意。也没人能阻止它。能力的 commodity 化速度,比任何一份私募 deck 准备应对的都快。
看着这条曲线,容易得出一个结论:AI 时代正在泄气。其实不是。真正在塌缩的是价值过去被捕获的那一层——那一层正是各家实验室花了十年时间精心构筑的:每家公司都想成为"你和 AI 对话的入口"。
能力一旦 commodity 化,价值就向上层迁移。这是历史上每一次大宗 commodity 化都发生过的事。有意思的问题是:对 AI 而言,向上迁移的那一层长什么样?有意思的答案是:它不可能是一个封闭产品。它必须是一个协议。
这篇文章谈的就是为什么。
历史教会我们的 commodity 拐点规律
1995 年,桌面上的问题是 哪个浏览器会赢。Netscape 和 Internet Explorer 围绕"谁拥有 World Wide Web 的前门"打了一场惨烈的战争。两家公司今天都成了考古学注脚。真正赢下来的不是它们中的任何一个,而是它们底层的协议——HTTP。HTTP 不和 Netscape 竞争;HTTP 让 Netscape 成为可能,并因为它中立而活得比 Netscape 长。今天 HTTP 承载着数万亿美元的商业,没有任何一笔被任何一家浏览器厂商捕获。
SQL 演了同样的剧本。2000 年代每家数据库厂商都想拥有客户的数据。Oracle、IBM、Microsoft、Sybase。它们今天都还活着,但赢下那十年的那一层——开发者真正花时间的那一层,应用真正变得可移植的那一层——是标准化的查询语言。ANSI SQL 没有人拥有,所有人都在用。
移动时代又演了一遍。这次是 iOS 对 Android。设备层封闭和开放共存。但 Web——也就是协议层——在两者之上繁荣,用户从手机里获得的大部分价值,都经由它流转。
这不是巧合。这是 commodity 化的结构形状。当一种能力变得便宜,提供它的价值就缩水。价值会迁移到——谁定义了这种能力如何被协调、组合、互通。谁拥有协调层,谁就赢下这一轮;而能真正统一一个有多个 credible 厂商的市场的协调层,只能是没有任何单一厂商拥有的那一层。
那一层叫协议。
封闭 AI 产品的结构性问题
把这个规律套回 AI。
今天的封闭 AI 产品共享一组属性。这组属性看上去像是产品决策,其实是它们商业模式的结构性后果。做个思想实验——试试用现有的封闭 AI 产品做下面任何一件事:
- 把你在平台 A 上搭的 agent 拿到平台 B 上跑,无需重写。
- 让你在平台 A 上的 agent 调用平台 B 上某人发布的能力,并付费给他。
- 把三家厂商的三个 skill 组合到同一个工作流里,让你的 agent 自主执行。
- 转售——真正转售,收入归你——你的 agent 替别人 agent 干活的那部分劳动。
- 把整个栈跑在你自己的机器上,用你自己的数据,断网也能跑。
你做不到任何一件。不是因为封闭 AI 公司的工程师不行——他们个个出色。你做不到这些事,是因为养活这些公司的商业模式要求你做不到。一个收入靠你回到它服务器的平台,结构上不可能让你跑在别处。一个护城河是锁住你数据的平台,结构上不可能让你的数据住在别处。一个按 token 收费的 API,结构上不可能让三家竞争对手的 token 在你的工作流里流转,然后让收入归别人。
这不是恶意。这是引力。封闭产品在一个 commodity 化的市场里,必然收敛到同一组约束——因为这是底层能力变得免费时,唯一能保住毛利的姿势。
这种收敛的用户体验,是感觉 AI 生态在变窄——尽管模型在变强。更好的自动补全,更糟的互操作性。
要逃离这个引力井,只有一条路——结构性的路。
一个开放 agent 协议必须提供什么
如果协议是 commodity 化市场里价值得以协调的方式,那么 AI 时代的问题就是:一个 agent-native 协议必须提供什么,是老协议没提供过的?
六项属性,每一项封闭产品都给不了,因为它们的商业模式禁止:
可组合的单元。 能力必须以可被任何人组合的单元出现,像函数调用那样组合。这就是为什么 prompt 和 skill 让人觉得不够——它们不组合,它们被嵌入。Agent 的可组合单元必须是一等公民:可识别、可版本化、可转让。不是埋在某个聊天 app 设置面板里的配置串。
可验证的身份与谱系。 当能力可组合时,"这玩意儿从哪儿来"就成了一个有安全、归属、经济后果的问题。协议必须能回答它——而不依赖任何一个中心化厂商。这就是公钥密码学在 Web 身份层扮演的角色,它必须再次为 agent 层扮演同样的角色。
本地优先的执行路径。 不是本地-only——总会有理由调用云端 frontier 解最难的问题——但是本地-优先:agent 默认运行的位置是它的拥有者控制的硬件。主权不是 feature,主权是"你在用工具"和"工具在用你"的区别。封闭 AI 产品给不了你这个,因为它们的整个定价模型就建立在你没有它的前提上。
没有 lock-in 的联邦。 在一个地方建好的能力,必须能触达另一个地方的用户,无需强迫迁移。Email 证明了这能 scale。Web 证明了这能 scale。AI 至今还没被允许这么干。
诚实的 fitness 度量。 当能力相互竞争,总得有人衡量谁好。协议不能把这件事交给任何单一厂商——那样协议就退化回一个封闭市场,只是多了几步。度量必须从外部可观察、可复现、能抵抗所有营销主张都会发起的博弈。给它一个准确的名字:一个公共仲裁层,没人拥有。
创作者拥有的经济。 当构建能力的人能够从中赚钱——直接赚、按使用比例赚、不用平台决定他们的抽成——你得到一个生态。当他们不能时,你得到一个抽水栈——创作者为平台打工。Substack 为作家重新发现了这个真理。App store 为开发者半发现了它。Agent 层还没轮到。
每一项都对应一个先例:HTTP 之于传输、公钥密码学之于身份、RSS 之于联邦、app store(好的部分)之于经济。没有一个先例是从零发明的——每一个都是把旧 primitive 重新组合,应用到新的一层。
Agent 层就是新的一层。这次的重新组合,就是 agent 开放协议的样子。
Rotifer 为什么选这条路
Rotifer 在搭这个协议,不是因为我们对 agent 架构有什么聪明的看法。我们对 agent 架构是有几个聪明的看法,但其他团队也有;那不是这件事最重要的部分。我们做这件事,是因为:结构性问题已经显形了,解决它的窗口很短,而商业模式能够承受去解决它的人,目前不在位置上。
我们这一注的形状值得直接说出来:
协议是开放的。rotifer.ai 上的参考实现存在的目的,是证明协议可以被实施、被使用、被生长出来。参考实现不是协议。它是可替代的。必须可替代——否则协议就只是一个写了多一些文档的封闭产品。
姐妹 binding 是协议设计里敞开的槽位,不是已发布的产品。协议为以下 binding 预留干净的接口:Web3-native binding(agent 谱系活在链上)、市场本地化 binding(处理特定司法管辖区的监管和语言现实)、以及 mobile、on-device、嵌入式、TEE 后端的 binding。每个 binding 都用同一套协议对接不同的运营现实——而任何 binding 都可以由任何人来造。如果三年后用得最多的 Rotifer binding 不是我们造的——那是目标,不是失败。
这不是创业公司通常的思考方式。创业公司试图成为没人能替代的 binding。我们试图成为让 binding 可替代的协议——基于一个判断:commodity 化中存活下来的那一层,是不需要赢的那一层。
这一注更深的版本是:在 AI 时代,对自己 agent 的主权会以一种方式开始重要起来,就像 2010 年代后期数据主权开始重要起来那样——先安静、然后突然。当那个翻转发生时,唯一还能跑的地方,是那些从设计之初就允许你离开的地方。
两到三年的窗口
这种窗口不会一直开着。
封闭 AI 实验室没法走这条路——它们的收入模型禁止。它们的毛利依赖 token 流经它们的推理、agent 住在它们的 app、开发者无法迁移。它们不会 pivot。它们不能 pivot。观察这件事是当下科技领域可观察的最有意思的战略练习之一——看着一类公司被结构性地阻止去做市场需要它们做的事。
只有一个组织有同时和开放协议 + 创作者经济竞争的文化 DNA:Hugging Face。它们默认开放,对创作者友好,model hub 业内其他人都在用。它们还没有搭 agent 协议层。如果他们搭——按足够长的时间线看,他们大概率会——Rotifer 的工作就变难。那是我们必须赢的比赛。
我们估算窗口期是 2-3 年。这是定义"开放 agent 协议在实践中意味着什么"的可用时间——要么 Hugging Face 入场,要么封闭 AI 实验室中的一部分集体决定"宁可分到开放饼的一片,也不要在封闭饼上饿死"。任何一种结果对世界都不坏。但两种结果都要求:到那时协议已经足够实,能够吸收入场者。
所以我们在现在动。第一个参考 binding 已经活了。Genome 级的组合 primitive 已经文档化。本地优先执行路径今年实施。创作者经济机制定在 v1.0。解释为什么底层决策长这个样子的论文已经公开。
如果你读到这里,你大概率是那种注意到栈的某一层即将被重新定义的人。这是其中一个时刻。窗口很短。
一个邀请
协议是公开的。参考实现是公开的。论文也是公开的。
如果你做 agent,今天最简单能做的事是用开放协议组合一个 agent,然后看看它的行为是不是和封闭产品版本不一样。CLI 装上需要一分钟。rotifer.ai 上的云面注册大约也是一分钟。
如果你做基础设施,更有意思的动作是搭下一个 binding。架构刻意把协议和实现分开,binding 槽位全开着:Web3-native(agent 谱系活在链上)、市场本地化(特定司法管辖区的监管和语言现实)、mobile、on-device、嵌入式、TEE 后端。挑一个。
如果你写作、构建、研究、或者任何会产出"世界想去组合"的能力的事情——agent 经济现在开始了,它跑在的那一层,可以是少数几家公司拥有的、也可以是我们所有人共同拥有的。这个选择会在下面几年里被做出来。由那些出现在场的人做出。
我们宁愿它是开放的。这就是我们为什么用这种方式去搭它。
— Rotifer Protocol