基于可靠多原型对比学习的半监督异构多器官医学图像分割方法研究学术报告
一、 研究团队与发表信息
本研究由Xiangjun Yang, Jieshu Ren, Liang Yang, Hongyu Li, Yichao Wang, Dongpei Liu, Yi Wang, Zhihui Wang, 以及 Bin Liu (IEEE会员) 共同完成。Xiangjun Yang、Jieshu Ren、Hongyu Li、Yichao Wang 和 Bin Liu 来自大连理工大学附属肿瘤医院、大连理工大学软件学院/国际信息与软件学院以及大连理工大学中俄信息与通信技术联合研究中心。Liang Yang 和 Dongpei Liu 来自大连医科大学附属第二医院。Yi Wang 和 Zhihui Wang 来自大连理工大学软件学院/国际信息与软件学院。Xiangjun Yang 和 Jieshu Ren 为共同第一作者,Bin Liu 为通讯作者。本研究已获《IEEE Transactions on Medical Imaging》期刊录用,并于2026年在线发表(DOI: 10.1109/TMI.2026.3692692)。研究代码已公开于 GitHub。
二、 学术背景与研究目标
本研究属于医学图像分析与人工智能交叉领域,聚焦于半监督学习(Semi-Supervised Learning, SSL) 在多器官分割(Multi-organ Segmentation) 任务中的应用。精确的多器官分割对于计算机辅助手术导航至关重要。然而,医学图像像素级标注耗时费力,导致标注数据稀缺,这促使半监督学习成为利用大量未标注数据的重要解决方案。尽管现有半监督方法在单器官分割上表现良好,但在面对临床真实世界中的异构多器官分割(Heterogeneous Multi-organ Segmentation) 时,其性能显著下降,阻碍了临床转化。作者指出,这主要源于两大瓶颈挑战:1) 类间特征模糊性(Inter-class Feature Ambiguity):解剖结构相似的不同器官之间,或器官与背景之间,在低对比度区域特征边界不清晰;2) 高多源样本异质性(High Multi-source Sample Heterogeneity):由于多中心、多扫描仪成像协议差异,同一器官在不同来源数据中的特征分布可能分散、碎片化甚至形成多个子簇,而非紧凑的单簇。
针对上述挑战,本研究旨在开发一种新的半监督框架,以解决异构医学图像中的多器官分割问题。具体目标是通过创新性地整合可靠多原型对比学习(Reliable Multi-Prototypical Contrastive Learning, MPCL),增强模型对模糊特征的判别能力,并有效建模多源数据中复杂的类内分布,从而提升分割精度和模型鲁棒性。
三、 研究方法与工作流程
本研究提出了一个名为 TP-Net 的半监督框架,其核心由双网络架构与多重交叉伪监督(Multiple Cross-Pseudo Supervision, CPS)策略以及可靠多原型对比学习模块紧密集成。
1. 双网络架构与多重CPS策略: 为了在半监督设置下提供更稳定、多样的预测一致性基础,TP-Net构建了两个具有相同结构但不同初始化的主网络(fθt 和 fθp)。每个主网络包含一个共享编码器和三个采用不同上采样策略(转置卷积、双线性插值、最近邻插值)的解码器。这种设计引入了丰富的扰动。训练时采用两种CPS策略: * 不同上采样的CPS(l_ucps):利用一个解码器输出的软化伪标签(通过温度参数τ1锐化)监督另一个解码器的输出,在分布层面强制一致性。 * 不同初始化的CPS(l_icps):两个主网络中采用相同上采样策略的解码器分支相互提供离散化伪标签进行交叉监督,结合交叉熵损失和Dice损失。
这两种一致性损失同时作用于标注数据和未标注数据,增强了模型在有限标注数据下的泛化能力,并减轻了过拟合风险。
2. 异构原型动态演化机制: 为解决多源数据中类内分布碎片化的问题,作者设计了异构原型动态演化机制。该机制为每个类别(包括背景)维护一个类别原型特征库(Class Prototype Feature Bank),其中存储多个原型特征,以建模类内的复杂分布。具体流程如下: * 可靠像素特征提取:从网络预测头输出的特征图中,基于不确定性估计(预测熵)筛选出可靠像素对应的特征。 * 候选原型生成:对于每个输入图像,每个解码器分支根据可靠像素的特征,按类别计算平均特征,作为当前迭代的“候选原型”。 * 图驱动原型更新:将当前迭代生成的候选原型与特征库中存储的“现有原型”视为图中的节点。计算节点间的余弦相似度,若超过阈值α则连接。图中每个连通分量被视为一组冗余或高度相似的原型簇。 * 原型合并与维护:对每个连通分量内的原型特征进行算术平均,生成合并后的新原型,更新回特征库。若库容量超过预设最大值(v_max),则根据时间戳注册表移除最久未更新的原型,以保持库的紧凑性和代表性。
该机制动态地建模和优化类别的多原型表示,避免了单原型无法覆盖碎片化分布的局限性。
3. 可靠多原型对比学习(MPCL): 为了缓解原型偏移并解决类间模糊性,TP-Net提出了两种由不同监督信号引导的MPCL策略: * 有限标注引导的MPCL(ll-MPCL):仅应用于标注数据。通过计算像素预测熵得到不确定性图,将不确定性范围划分为等宽区间(bin)。根据标注数据计算每个区间的预测准确率,选取准确率最高的前µ_thresh个区间对应的像素特征视为可靠,用于构建标注数据引导的原型特征库 {D_t^k}。对比损失(l_lpc)鼓励样本特征靠近同类的原型(正样本),而远离其他类的原型(负样本),实现类内聚合和类间分离。 * 可靠伪标签引导的MPCL(pl-MPCL):应用于未标注数据。为了解决未标注数据没有真实标签来评估预测准确率的问题,作者提出了不确定性感知跨域对齐策略。该策略基于平滑性假设,将标注数据不确定性分布中准确率最高的前µ_thresh个区间,直接对齐到未标注数据的不确定性分布上,从而从未标注数据中筛选出“可靠”的像素特征,用于构建伪标签引导的原型特征库 {D_p^k}。随后应用类似的对比损失(l_ppc)。
这两种策略协同工作,ll-MPCL利用有限但精确的标注提供强监督,pl-MPCL则扩展了可靠原型学习到海量未标注数据,共同优化特征空间。
4. 总体损失函数与训练流程: 模型的总体损失是监督损失(l_s,仅用于标注数据)与上述四种无监督/一致性损失(l_ucps, l_icps, l_lpc, l_ppc)的加权和。训练时,标注数据和未标注数据流经不同的分支,应用相应的损失进行联合优化。
5. 实验设计与评估: * 数据集:研究使用了两个公共数据集(SPIDER MRI数据集、AbdomenCT-1K CT数据集)和一个内部收集的膝关节MRI数据集(包含31例自收集病例和69例来自MRNet的病例),总计涵盖多种模态(MRI, CT)、多个身体部位(脊柱、腹部、膝关节)和多个器官,以验证方法在异构多器官分割上的有效性。数据均进行了各向同性重采样、强度归一化和数据增强等预处理。 * 实现细节:以U-Net为骨干网络,使用SGD优化器。在三个数据集上分别训练10k或15k次迭代。批次中包含等量的标注和未标注样本。通过实验确定了关键超参数(如λ_t, λ_p, v_max, µ_thresh, α)的最优值。 * 对比方法:与9种先进的半监督分割方法进行了全面比较,包括BCP、ICT、DCNet、MC-Net、MC-Net+、SLC-Net、UA-MT、URPC和SS-Net。 * 评估指标:采用Dice系数、Jaccard指数、F1分数、95%豪斯多夫距离(95HD)和平均表面距离(ASD)进行定量评估。
四、 主要研究结果
1. 半监督多器官分割任务性能: 在三个数据集上,TP-Net在绝大多数指标和器官分割任务上均取得了最佳性能。 * 低标注率下的显著优势:特别是在仅使用5%标注数据时,TP-Net的优势更为明显。例如,在AbdomenCT-1K数据集上,使用5%标注数据的TP-Net,其平均Dice和95HD性能甚至超过了其他9种对比方法使用20%标注数据时的平均性能(TP-Net: Dice 83.46%, 95HD 32.53;对比方法平均: Dice 81.54%, 95HD 39.99)。 * 逼近甚至超越全监督基线:在SPIDER和AbdomenCT-1K数据集上,仅使用20%标注数据训练的TP-Net,其整体性能超越了使用100%标注数据训练的全监督U-Net基线(例如SPIDER上:Dice 85.81% vs. 84.67%,95HD 2.18 vs. 3.07)。这证明了该方法能有效利用大量未标注数据学习丰富且准确的特征表示。 * 挑战性结构分割改进:在膝关节数据集中,对于特征高度相似、边界模糊的髌韧带(Patellar Ligament)和股四头肌腱(Quadriceps Tendon),TP-Net相比其他方法在95HD指标上取得了显著提升(5%标注时分别提升1.87和4.63;10%标注时分别提升2.45和6.07)。这归功于原型对比学习通过迭代的原型吸引和排斥优化了类间决策边界。
2. 异构医学图像分割任务性能: TP-Net在包含显著样本异质性的SPIDER和AbdomenCT-1K数据集上取得了统计学显著的性能提升。例如,与先前基于原型的SOTA方法SS-Net相比,TP-Net在SPIDER数据集上的Dice指标在5%和20%标注率下分别提升了3.46%和3.50%;在AbdomenCT-1K上分别提升了13.19%和4.96%。这验证了多原型建模对于处理类内分布分散问题的有效性。可视化结果也显示,TP-Net在对比度、形态和位置关系差异巨大的脊柱和腹部案例中,都能生成更稳定、完整的分割边界。
3. 消融实验分析: 消融实验(M1-M5)系统地验证了TP-Net各个组件的有效性: * M1-M3验证了多重解码器策略和双重CPS策略优于单一策略,能通过引入多样化扰动增强一致性正则化。 * M4和M5分别证明了ll-MPCL和pl-MPCL的引入能带来显著性能增益,尤其是在低标注率下。 * 最终完整的TP-Net整合所有组件,取得了最佳性能,证明了各模块的协同作用。 * 特征空间可视化(t-SNE)显示,随着训练进行,TP-Net学习到的特征嵌入具有更好的类内紧凑性和类间可分离性,直观证明了MPCL的有效性。 * 另一项消融实验证实了伪标签过滤(不确定性感知跨域对齐)策略对提升性能至关重要。
4. 临床应用验证: 为验证TP-Net的临床可行性,研究团队将训练好的模型部署到自主开发的膝关节微创手术导航系统中,用于膝关节MRI的软组织分割。该系统集成了从分割、三维重建、配准、路径规划到术中导航的全流程。在10例真实临床受试者上的定量评估显示,TP-Net取得了高且稳定的分割性能(各项指标分布集中)。此外,研究团队记录并展示了基于该系统升级迭代的三次临床试验,获得了临床医生的积极术后反馈,初步证明了该研究在临床实践中的潜力。
五、 研究结论与价值
本研究成功提出并验证了TP-Net,一个用于异构医学图像半监督多器官分割的新型框架。该框架通过异构原型动态演化机制自适应地建模多源数据中复杂的类内分布,并通过可靠多原型对比学习策略,利用有限标注和可靠伪标签共同引导,有效缓解了原型偏移并增强了类间特征判别力,从而同时解决了类间特征模糊性和多源样本异质性两大挑战。
科学价值:1) 提出了“多原型”概念来刻画医学图像中由于设备、协议差异导致的类内分布碎片化问题,突破了传统单原型方法的局限。2) 创新性地将不确定性估计与跨域对齐结合,为未标注数据下的可靠原型构建提供了新思路。3) 将多重扰动CPS与原型对比学习有机结合,为半监督医学图像分割,特别是复杂多器官场景,提供了一个强大且通用的框架。
应用价值:TP-Net在多个公开和私有数据集上达到了最先进的性能,尤其在低标注率下表现优异,显著降低了模型对昂贵标注数据的依赖。其成功集成到自主开发的手术导航系统并完成初步临床验证,展示了该方法推动AI辅助手术从实验室走向临床应用的巨大潜力。
六、 研究亮点
七、 其他有价值内容
本研究得到了中国国家重点研发计划、国家自然科学基金、中央高校基本科研业务费等多个项目的支持,显示了该研究领域的重要性。作者承诺公开代码,有利于促进领域内的可重复性研究和进一步创新。文中对实验细节(如数据预处理、参数设置)描述清晰,为其他研究者复现和借鉴提供了便利。