一位患者需要定制膝关节植入物。临床工作流如下：获取 CT 扫描，分割股骨和胫骨，重建完整的三维骨骼几何模型，提取 77 个形态参数，生成患者专属的植入物设计。法国布雷斯特大学医院的研究团队最近将这整条管线自动化——从原始 CT 到成品假体 CAD，仅需 15 分钟。

这是令人印象深刻的工程成果。但看看架构：每一步都硬连接到下一步。分割模型焊死在重建算法上，重建算法焊死在参数提取器上。如果下个月出现更好的分割模型，替换它意味着重写集成代码、重新验证管线、重新走合规审查。

这就是静态管线问题——它远不止存在于医学影像领域。每个串联 AI 模型的系统都面临它。问题是：当你不再把管线步骤当作代码，而是当作基因（Gene），会发生什么？

每一步本来就是 Gene——只是自己不知道

通过 Gene 三公理的视角观察管线中的各个阶段：

阶段	功能内聚	接口自足	独立可评估
CT 分割	读入 DICOM，输出三维网格	标准化输入/输出	Dice 系数、Hausdorff 距离
三维重建	读入局部网格，输出完整骨骼	标准化输入/输出	表面偏差（mm）
参数提取	读入骨骼模型，输出 77 个地标	标准化输入/输出	地标精度（mm）
假体设计	读入参数，输出 CAD 几何体	标准化输入/输出	假体贴合精度

每个阶段只做一件事。每个都有明确定义的接口。每个都能被独立度量。它们无需任何修改就满足三公理——只是恰好被锁在一个单体代码库里，而不是被封装为可组合、可评估的独立单元。

用 Rotifer 的术语说，每个阶段就是一个 Gene：一个原子逻辑单元，具有声明式的表型（Phenotype，描述它做什么、需要什么、承诺什么）和可度量的适应度评分。

Arena：让算法在数据上竞争，而非在论文上

医学影像研究者不断发表新的分割架构。U-Net、nnU-Net、SegResNet、TransUNet、Swin UNETR——每篇论文都声称在特定基准上达到了最先进水平。但哪个在你的患者群体、你的扫描设备、你的解剖区域上效果最好？

目前，回答这个问题需要一项专门的基准测试研究。有人得下载模型、标准化输入、运行评估、分析结果、发表对比论文。这要花数周甚至数月。

Arena 机制提供了一种不同的模型：多个声明了相同 Phenotype 的 Gene（例如 segment.knee）在相同的任务分布上自动且持续地被评估。适应度函数捕获真正重要的指标：

F(g) = (Success_Rate × log(1 + Utilization) × (1 + Robustness)) / (Complexity × Cost)

对于一个分割 Gene，这意味着：

成功率：Dice 分数超过临床阈值的案例百分比
使用量：已处理的案例数（实战记录很重要）
鲁棒性：不同患者解剖结构间的性能方差
复杂度：模型大小和代码体量
成本：每个案例的推理时间

没有委员会。没有论文评审。数据说了算。当新的分割方法出现时，它进入 Arena，与现有方案在真实工作负载上竞争，要么赢得采用，要么被淘汰。

Composition：管线是代数式，不是意大利面代码

一旦每一步都是 Gene，管线就变成了组合表达式，而不是一堆集成代码：

spine_pipeline = Seq(segment.spine, reconstruct.ssm, analyze.morphology, design.implant.spine)
knee_pipeline  = Seq(segment.knee, reconstruct.ssm, analyze.77params, design.implant.tka)

这不是伪代码。Gene 组合代数定义了算子——Seq 串行、Par 并行、Cond 条件分支、Try 错误恢复——它们编译为可执行的数据流图。代数保证类型安全：如果 segment.spine 输出网格而 reconstruct.ssm 期望网格，组合在编译时就完成类型检查。

回报是模块化。当一家医院购入一台新的 MRI 扫描仪并产生更高分辨率的数据时，他们不需要重建管线——只需替换为针对该分辨率优化的重建 Gene。当需要新的解剖区域（肩关节、颅颌面）时，将现有 Gene 与特定区域的 Gene 组合即可。

Controller Gene 模式更进一步。Controller Gene 是一个普通 Gene，其职责是在运行时动态编排其他 Gene——根据成像模态、解剖区域和数据质量决定调用哪个分割模型。可以把它想象成管线的主治医生：它不做手术，但它决定方案。

HLT：共享模型，而非患者数据

以下是让医学 AI 架构师夜不能寐的场景：A 医院在 500 例标注 CT 扫描上训练出了一个出色的脊柱分割模型。B 医院想要这个模型。但共享训练数据违反患者隐私法规（HIPAA、GDPR、中国的《个人信息保护法》）。联邦学习是一种解决方案，但它需要持续协调、梯度聚合，并引入通信开销。

水平逻辑迁移（Horizontal Logic Transfer）提供了一种结构性不同的方法。传播的是 Gene 本身——训练好的模型，连同其 Phenotype 声明和适应度评分——而不是训练数据。B 医院在自己的本地数据上评估收到的 Gene。如果它优于现有方案，就采用它。如果没有，就拒绝。没有梯度跨越机构边界。没有患者数据离开大楼。

协议的隐私保护共享机制增加了一层保障：Gene 的适应度评分和接口规格是公开的（以便 B 医院决定是否评估），但内部权重和实现在接收方明确接受之前是不透明的。

这是 HLT 在监管领域的应用——之所以可行，正是因为 Gene 是自包含、可独立评估的单元。你不需要信任源医院的数据。你只需要在自己的数据上验证 Gene 的表现。

更大的图景：从静态工件到活的系统

布雷斯特的 TKA 管线自动化了一个 15 分钟的工作流。这是一个已解决的工程问题。但该管线的进化——替换弱组件、适应新的数据分布、跨机构传播改进——仍然是手动的、缓慢的、脆弱的。

这种模式在每个串联模型的 AI 领域中重复出现。自动驾驶管线串联感知→预测→规划。药物发现串联靶点识别→分子生成→性质预测。内容审核串联检测→分类→决策。每一个都面临同样的结构性挑战：动态环境中的静态逻辑。

医学影像这个案例之所以能把论点说得具体，是因为管线阶段清晰、评估指标定义明确（Dice、Hausdorff、表面偏差），而且监管要求迫使你做显式的生命周期管理。但其背后的模式——封装、评估、组合、竞争、传播——是领域无关的。

这就是进化工程（Evolution Engineering）的核心论点：下一个工程学科不是关于如何与 AI 对话，不是关于 AI 知道什么，也不是关于如何编排 AI。而是关于 AI 的能力如何随时间持续改进——自动地、可度量地，且不需要每次有更好方案时就从头重建整个系统。

Rotifer Protocol 是一个面向自主软件 Agent 的开源进化框架。本文讨论的概念——Gene 封装、Arena 竞争、Composition Algebra、水平逻辑迁移——定义在协议规范中，并在 Playground CLI 中实现。