← 返回博客

如果你的医学 AI 管线能够进化?

个性化骨科植入物设计运行着一条刚性管线:CT 扫描→分割→三维重建→假体 CAD。每一步都是冻结的工件。当你把每一步视为一个基因(Gene),一切会发生什么变化。

如果你的医学 AI 管线能够进化?

一位患者需要定制膝关节植入物。临床工作流如下:获取 CT 扫描,分割股骨和胫骨,重建完整的三维骨骼几何模型,提取 77 个形态参数,生成患者专属的植入物设计。法国布雷斯特大学医院的研究团队最近将这整条管线自动化——从原始 CT 到成品假体 CAD,仅需 15 分钟。

这是令人印象深刻的工程成果。但看看架构:每一步都硬连接到下一步。分割模型焊死在重建算法上,重建算法焊死在参数提取器上。如果下个月出现更好的分割模型,替换它意味着重写集成代码、重新验证管线、重新走合规审查。

这就是静态管线问题——它远不止存在于医学影像领域。每个串联 AI 模型的系统都面临它。问题是:当你不再把管线步骤当作代码,而是当作基因(Gene),会发生什么?


每一步本来就是 Gene——只是自己不知道

通过 Gene 三公理的视角观察管线中的各个阶段:

阶段功能内聚接口自足独立可评估
CT 分割读入 DICOM,输出三维网格标准化输入/输出Dice 系数、Hausdorff 距离
三维重建读入局部网格,输出完整骨骼标准化输入/输出表面偏差(mm)
参数提取读入骨骼模型,输出 77 个地标标准化输入/输出地标精度(mm)
假体设计读入参数,输出 CAD 几何体标准化输入/输出假体贴合精度

每个阶段只做一件事。每个都有明确定义的接口。每个都能被独立度量。它们无需任何修改就满足三公理——只是恰好被锁在一个单体代码库里,而不是被封装为可组合、可评估的独立单元。

用 Rotifer 的术语说,每个阶段就是一个 Gene:一个原子逻辑单元,具有声明式的表型(Phenotype,描述它做什么、需要什么、承诺什么)和可度量的适应度评分。


Arena:让算法在数据上竞争,而非在论文上

医学影像研究者不断发表新的分割架构。U-Net、nnU-Net、SegResNet、TransUNet、Swin UNETR——每篇论文都声称在特定基准上达到了最先进水平。但哪个在你的患者群体、你的扫描设备、你的解剖区域上效果最好?

目前,回答这个问题需要一项专门的基准测试研究。有人得下载模型、标准化输入、运行评估、分析结果、发表对比论文。这要花数周甚至数月。

Arena 机制提供了一种不同的模型:多个声明了相同 Phenotype 的 Gene(例如 segment.knee)在相同的任务分布上自动且持续地被评估。适应度函数捕获真正重要的指标:

F(g) = (Success_Rate × log(1 + Utilization) × (1 + Robustness)) / (Complexity × Cost)

对于一个分割 Gene,这意味着:

没有委员会。没有论文评审。数据说了算。当新的分割方法出现时,它进入 Arena,与现有方案在真实工作负载上竞争,要么赢得采用,要么被淘汰。


Composition:管线是代数式,不是意大利面代码

一旦每一步都是 Gene,管线就变成了组合表达式,而不是一堆集成代码:

spine_pipeline = Seq(segment.spine, reconstruct.ssm, analyze.morphology, design.implant.spine)
knee_pipeline = Seq(segment.knee, reconstruct.ssm, analyze.77params, design.implant.tka)

这不是伪代码。Gene 组合代数定义了算子——Seq 串行、Par 并行、Cond 条件分支、Try 错误恢复——它们编译为可执行的数据流图。代数保证类型安全:如果 segment.spine 输出网格而 reconstruct.ssm 期望网格,组合在编译时就完成类型检查。

回报是模块化。当一家医院购入一台新的 MRI 扫描仪并产生更高分辨率的数据时,他们不需要重建管线——只需替换为针对该分辨率优化的重建 Gene。当需要新的解剖区域(肩关节、颅颌面)时,将现有 Gene 与特定区域的 Gene 组合即可。

Controller Gene 模式更进一步。Controller Gene 是一个普通 Gene,其职责是在运行时动态编排其他 Gene——根据成像模态、解剖区域和数据质量决定调用哪个分割模型。可以把它想象成管线的主治医生:它不做手术,但它决定方案。


HLT:共享模型,而非患者数据

以下是让医学 AI 架构师夜不能寐的场景:A 医院在 500 例标注 CT 扫描上训练出了一个出色的脊柱分割模型。B 医院想要这个模型。但共享训练数据违反患者隐私法规(HIPAA、GDPR、中国的《个人信息保护法》)。联邦学习是一种解决方案,但它需要持续协调、梯度聚合,并引入通信开销。

水平逻辑迁移(Horizontal Logic Transfer)提供了一种结构性不同的方法。传播的是 Gene 本身——训练好的模型,连同其 Phenotype 声明和适应度评分——而不是训练数据。B 医院在自己的本地数据上评估收到的 Gene。如果它优于现有方案,就采用它。如果没有,就拒绝。没有梯度跨越机构边界。没有患者数据离开大楼。

协议的隐私保护共享机制增加了一层保障:Gene 的适应度评分和接口规格是公开的(以便 B 医院决定是否评估),但内部权重和实现在接收方明确接受之前是不透明的。

这是 HLT 在监管领域的应用——之所以可行,正是因为 Gene 是自包含、可独立评估的单元。你不需要信任源医院的数据。你只需要在自己的数据上验证 Gene 的表现。


更大的图景:从静态工件到活的系统

布雷斯特的 TKA 管线自动化了一个 15 分钟的工作流。这是一个已解决的工程问题。但该管线的进化——替换弱组件、适应新的数据分布、跨机构传播改进——仍然是手动的、缓慢的、脆弱的。

这种模式在每个串联模型的 AI 领域中重复出现。自动驾驶管线串联感知→预测→规划。药物发现串联靶点识别→分子生成→性质预测。内容审核串联检测→分类→决策。每一个都面临同样的结构性挑战:动态环境中的静态逻辑。

医学影像这个案例之所以能把论点说得具体,是因为管线阶段清晰、评估指标定义明确(Dice、Hausdorff、表面偏差),而且监管要求迫使你做显式的生命周期管理。但其背后的模式——封装、评估、组合、竞争、传播——是领域无关的。

这就是进化工程(Evolution Engineering)的核心论点:下一个工程学科不是关于如何与 AI 对话,不是关于 AI 知道什么,也不是关于如何编排 AI。而是关于 AI 的能力如何随时间持续改进——自动地、可度量地,且不需要每次有更好方案时就从头重建整个系统。


Rotifer Protocol 是一个面向自主软件 Agent 的开源进化框架。本文讨论的概念——Gene 封装、Arena 竞争、Composition Algebra、水平逻辑迁移——定义在协议规范中,并在 Playground CLI 中实现。