本研究由 Xinru Zhang、Ni Ou、Berke Doga Basaran、Marco Visentin、Mengyun Qiao、Renyang Gu、Paul M. Matthews、Yaou Liu、Chuyang Ye 以及 Wenjia Bai(IEEE高级会员)共同完成。作者团队主要来自北京理工大学和英国帝国理工学院,合作机构还包括北京天坛医院。该项研究成果于2025年2月11日在线发表,并收录于2025年6月出版的 IEEE Transactions on Medical Imaging 第44卷第6期。
本研究属于医学影像人工智能领域,具体聚焦于脑部磁共振成像(Magnetic Resonance Imaging, MRI)的病灶自动分割任务。脑部病灶(如中风、胶质瘤、白质高信号等)的精准分割对于神经疾病的诊断、研究和预后评估至关重要。然而,不同类型的病灶在不同MRI模态(如T1加权像[T1-weighted, T1w]、T2加权像[T2-weighted, T2w]、液体衰减反转恢复序列[FLAIR]等)上表现出迥异的特征。传统范式是开发任务特定型模型:针对每一种病灶类型和每一种模态组合,都需要训练一个专门的模型。在实际临床部署中,医生需要根据患者的影像模态和疑似病灶类型,从众多模型中手动选择合适的模型,这一过程繁琐且阻碍了人工智能模型的推广应用。
为了克服上述局限,基础模型(Foundation Model) 的理念在医疗影像领域兴起,旨在训练一个通用模型处理多种任务。然而,现有通用模型往往因医疗数据的复杂性而精度受限,且未能充分解决输入模态多样性这一核心挑战。具体到脑病灶分割,模型需要能够处理单模态、多模态组合甚至模态缺失的异构输入情况。
因此,本研究旨在开发一个任务无关的、通用的脑部病灶分割基础模型。该模型的核心目标在于:1) 能够自动分割多种类型的脑部病灶;2) 能够处理任意输入的单一MRI模态;3) 能够进一步扩展以处理多模态组合输入,并稳健应对模态缺失问题。这将极大简化模型管理和临床部署流程。
本研究包含模型设计、训练、评估及分析等多个紧密关联的步骤,主要围绕两个核心模型展开:处理单模态输入的MOME和处理多模态输入的MOME+。
1. 模型架构:Mixture of Modality Experts (MOME) MOME的灵感来源于混合专家(Mixture of Experts, MoE) 系统。其核心思想是针对不同的成像模态训练专门的“专家”网络,并通过一个门控网络动态集成各专家的预测结果。
fepoch 强调专业化损失,强制每个专家专注于其对应模态的图像。随着训练进行,fepoch 逐渐减小,协作损失Lmome的权重增加,促使整个模型(专家+门控)进行精细调整和协作。fepoch 的设计使得训练过程从“专家专业化”平滑过渡到“专家协作”。2. 模型扩展:MOME+ 为了处理临床中常见的多模态输入及模态缺失情况,本研究扩展了MOME,提出了MOME+ 模型。
3. 数据集与实验设置 本研究在总计6,585个带标注的3D脑部图像上进行了全面评估,这些数据来源于9个数据集(6个公共,3个内部),涵盖了5种MRI模态和8种病灶类型(如多发性硬化病灶、中风病灶、胶质瘤、白质高信号等)。所有图像均经过预处理(配准、去颅骨、裁剪至统一尺寸)。
4. 数据分析流程 模型性能通过在不同数据集、不同病灶类型、不同模态上的平均Dice分数进行量化比较。通过t-SNE可视化分析了MOME和单个nnU-Net在特征空间中对不同模态和病灶图像的聚类能力。此外,通过详细的消融实验验证了MOME中各个组件(专家特殊化、分层门控、课程学习)的贡献。对于MOME+,则将其性能与为所有可能模态组合分别训练的多个专用nnU-Net(对于4个模态,需15个专用模型)进行对比,以证明其单一模型处理异构输入的效能。
实验结果全面证实了所提出的MOME和MOME+模型的优越性。
1. MOME在已见数据集上的性能 如表II和图3a所示,MOME在已见数据集的所有14个任务上,其平均Dice分数显著优于其他所有通用基础模型(nnU-Net, Multi-Talent, Hermes, nnU-Net ResEnc XL),高出约2%至4%。与需要提示的SAM-Med3D相比,优势更为明显(高出7%至15%),这主要是因为脑部病灶(尤其是分散的白质高信号)难以用点或框提示精确定位。 更重要的是,MOME的性能与需要训练17个独立模型的“任务特定型nnU-Net”集合相当,但MOME仅需一个模型。从效率上看,MOME的GPU内存消耗仅为训练所有任务特定模型的三分之一。t-SNE可视化(图3b)进一步显示,MOME学习到的潜在特征空间对不同模态和病灶类型的图像具有更清晰的聚类区分度,这解释了其性能提升的原因。
2. MOME对未见数据集的泛化能力 如表III所示,在三个内部未见数据集上,MOME的泛化能力同样出色。在两个肿瘤数据集上,其性能甚至超过了在该数据集上专门训练的任务特定型nnU-Net。在包含五种疾病白质高信号的复杂数据集上,MOME也取得了0.7015的可靠Dice分数。这证明了MOME作为基础模型强大的外推能力。
3. 消融实验与专家行为分析 消融实验(表V)逐步移除了MOME的三个关键设计(专家特殊化、分层门控、课程学习),结果显示性能逐次下降,验证了每个组件的必要性。对专家行为的可视化分析(图4)尤为重要:在没有抗退化课程学习的情况下,T2w和FLAIR专家会失去其模态特异性知识,变得不活跃(图4a)。而采用了课程学习策略后,每个专家都保持了对其专属模态的敏感性,并且观察到相关模态的专家(如T1w和T1ce)会协同激活,提供互补信息,从而通过门控网络得到更精细的分割结果(图4b)。这直接证明了课程学习策略在防止专家退化和促进有益协作方面的关键作用。
4. 模型效率探索 研究还探索了共享解码器以提升模型效率的方案(表VI)。结果表明,共享解码器的MOME版本在保证泛化性能(在未见数据集上表现相近)的同时,模型存储参数减少了约40%,GPU内存使用降低了14%,尽管在已见数据集上的精度略有牺牲。这为在实际部署中权衡性能与效率提供了可行选项。
5. MOME+处理多模态输入的结果 在BRATS2021数据集上模拟多种模态缺失组合的实验(表VII)显示,单一的MOME+模型在15种不同的输入模态组合上的平均分割性能,与为每种组合专门训练的15个nnU-Net模型集合的性能几乎持平(Dice分数仅相差0.32%)。然而,MOME+在训练GPU内存使用上减少了超过72.8%,模型存储需求减少了超过66.6%。这有力地证明了MOME+能够以一个统一的、高效的模型,灵活且鲁棒地处理临床中复杂的多模态及模态缺失场景。
本研究成功开发并验证了MOME和MOME+——一个新颖的、用于脑部MRI病灶分割的通用基础模型系列。其核心贡献在于创新性地将混合专家(MoE)框架与医学影像的模态特性相结合,通过模态专家化、分层门控集成以及抗退化的课程学习策略,有效解决了脑病灶分割中因输入模态多样性和病灶类型多变性带来的挑战。进一步的MOME+模型通过软分配调度网络,将模型的通用性扩展到了多模态和模态缺失的复杂现实场景。
科学价值:本研究为医学影像基础模型的设计提供了一条新路径,即针对特定领域的核心挑战(如模态多样性)定制MoE中的“专家”定义,并通过精心的训练策略平衡专家的专业化与系统的协作性。这比追求“全模态、全器官、全任务”的超级通用模型更具可操作性和性能优势。
应用价值:MOME/MOME+模型具有显著的临床转化潜力。它用一个模型替代了原本需要大量专用模型才能覆盖的任务范围,极大简化了医院影像科对AI模型的管理和部署流程。医生无需再为不同患者、不同扫描协议而手动选择模型,实现了真正的“即插即用”式智能辅助诊断,有望显著提升临床工作效率。
研究在讨论部分还指出了未来方向,例如当前数据集通常每张图像只标注一种病灶,但临床中存在多病灶共存的情况。未来可以通过病灶感知的数据增强技术(如CarveMix) 生成包含多种病灶的合成训练样本,从而进一步提升基础模型处理更复杂病变情况的能力。这为模型性能的持续进化指明了可行的技术路径。