本文是一篇题为《srpl-sfda: sam-guided reliable pseudo-labels for source-free domain adaptation in medical image segmentation》的原创性研究论文,发表于 Neurocomputing 期刊(2025年6月13日提交)。论文作者为 Xinya Liu, Jianghao Wu, Tao Lu, Shaoting Zhang 和 Guotai Wang,通讯作者为 Tao Lu 和 Guotai Wang。作者单位包括电子科技大学机械与电气工程学院、上海人工智能实验室以及四川省人民医院放射科。
本研究聚焦于医学图像分割领域中的一个关键挑战:领域适应。在临床实践中,由于成像设备、扫描协议和图像质量等因素的差异,训练模型所用的数据(源域)与实际应用场景中的数据(目标域)之间存在显著的分布差异,即领域偏移。这种偏移会导致模型在新数据上的性能严重下降。传统的无监督领域适应方法虽然能缓解此问题,但通常需要同时访问源域和目标域数据,这在涉及患者隐私和实际部署限制的临床环境中往往不可行。
因此,源数据自由的领域适应(Source-Free Domain Adaptation, SFDA)成为一个极具吸引力的研究方向。SFDA 旨在仅利用源域预训练的模型和未标注的目标域数据来完成模型适应,无需访问源域数据本身。然而,SFDA 面临的核心挑战在于如何在缺乏目标域标注的情况下提供有效的监督信号。现有的方法,如基于熵最小化的方法或基于伪标签的方法,常因监督信号不足或伪标签质量不佳而性能受限。
本研究旨在提出一种新颖的SFDA方法,以提升目标域伪标签的质量和可靠性,从而更有效地指导模型适应。其核心创新在于引入强大的基础分割模型——Segment Anything Model (SAM)——来指导伪标签的生成与精炼。具体目标包括:1)设计一种增强策略以生成与SAM兼容的输入并提升初始伪标签质量;2)利用SAM的零样本推理能力精炼伪标签;3)开发一种机制来评估和选择可靠的伪标签区域用于监督学习;4)最终在多个多中心医学图像分割数据集上验证方法的优越性。
本研究提出的方法称为 SRPL-SFDA,即“基于SAM引导的可靠伪标签的源数据自由领域适应”。整个框架是一个迭代的伪标签学习过程,主要包括四个关键组成部分,其工作流程可概括如下:
1. 基于测试时三分支强度增强的目标域伪标签生成
为了弥合源域与目标域之间的分布差距,并生成更适合SAM处理的输入,研究团队提出了测试时三分支强度增强(Test-Time Tri-branch Intensity Enhancement, T3IE)。该方法对每个目标域图像应用三种不同的强度变换: * 直方图均衡化:增强图像对比度,使强度分布更均匀。 * 域自适应伽马校正:自动调整每张图像的伽马值,使其平均强度与整个目标域数据集的平均强度对齐,减少图像间差异。 * SAM兼容伽马校正:寻找最优伽马值,使变换后图像的强度分布(均值和标准差)与SAM训练所用自然图像的统计特性(均值0.5,标准差0.29)相匹配。
将原始目标域图像分别经过这三种变换,得到三个增强版本:x_he, x_γd, x_γs。将它们分别输入预训练的源域分割模型,得到三个概率预测图,对其进行平均并通过argmax操作,得到初始伪标签 y。同时,将这三个增强图像通道拼接,形成一个三通道的RGB图像 x_rgb,作为后续SAM的兼容输入。
2. 基于SAM与T3IE的伪标签精炼
初始伪标签 y 虽然粗糙,但能提供目标物体的大致位置。研究以此为基础生成一个边界框提示(Bounding Box Prompt)b。随后,将拼接后的RGB图像 x_rgb 和边界框提示 b 一同输入SAM模型,利用其强大的零样本分割能力,得到一个精炼后的伪标签 r。相比直接使用原始图像或单一增强图像,这种方法利用了多通道互补信息,且输入格式更符合SAM的训练数据特性,从而能生成更高质量的伪标签。
3. 基于多重SAM输出一致性的可靠伪标签挖掘
尽管经过SAM精炼,伪标签 r 仍可能包含噪声。为了识别其中的可靠区域,研究提出了多重SAM输出一致性(Consistency of Multiple SAM Outputs, CMSO)策略。具体而言,将T3IE生成的三个单通道增强图像(x_he, x_γd, x_γs)分别与同一个边界框提示 b 输入SAM,得到三个分割输出:r_he, r_γd, r_γs。比较这三个输出在每个像素位置的一致性。将三个预测结果完全一致的像素区域标记为可靠区域 ω_c,其余区域标记为不可靠区域 ω_u。这是一种无需参数、基于一致性的可靠性估计方法。
4. 基于可靠性感知的伪标签监督与正则化训练
基于挖掘出的可靠与不可靠区域,研究设计了一个可靠性感知的伪标签监督与正则化(Reliability-aware Pseudo-label Supervision and Regularization, RPSR)损失函数,用于在目标域训练(适应)模型。 * 在可靠区域 ω_c 上,计算部分交叉熵损失和部分Dice损失,以精炼伪标签 r 作为监督信号,强制模型学习可靠的知识。 * 在不可靠区域 ω_u 上,应用部分熵最小化损失作为正则化项,鼓励模型做出高置信度(低熵)的预测,从而利用未标记数据的内在结构。 * 总损失函数为这两部分损失的加权和:L_total = L_rpl(q, r) + λ * L_pem(q),其中 q 是目标域模型的预测概率图,λ 是平衡超参数。
目标域模型使用源域模型参数进行初始化,并通过最小化上述总损失进行迭代优化,最终完成领域适应。
实验设计与数据集
研究在两个公开的多中心医学图像分割数据集上进行了验证: 1. 前列腺MRI分割数据集:包含来自五个不同医疗中心(A, B, D, E, F站点)的97个3D MRI体积。将站点A和B的数据合并作为源域(60例),站点D、E和F的数据作为目标域(37例)。此外,将来自癌症患者的站点C数据(19例)作为单独的、更具挑战性的目标域进行测试。 2. 胎儿脑部MRI分割数据集:包含来自同一中心两种不同扫描协议(TrueFISP和HASTE)的112个胎儿脑部MRI体积。将TrueFISP序列(44例)作为源域,HASTE序列(68例)作为目标域。
实验采用U-Net作为基础分割网络。评估指标为Dice系数和平均对称表面距离(ASSD)。将所提SRPL-SFDA方法与多种先进的SFDA方法(如TENT、AdaMI、UPL-SFDA等)以及有监督基线(源域仅训练、目标域仅训练、微调)进行了全面比较。同时,还设置了多个消融实验以验证各组件(T3IE、SAM精炼、CMSO、RPSR损失)的有效性,并分析了不同提示类型(掩码、点、框)对SAM性能的影响。
1. 与先进方法的性能比较 在两个数据集上,SRPL-SFDA均显著优于其他SFDA方法。 * 在前列腺数据集(目标域D/E/F)上,SRPL-SFDA取得了82.22%的平均Dice系数和2.02 mm的ASSD,不仅大幅超越了所有对比的SFDA方法(最佳对比方法UPL-SFDA为77.27% Dice),甚至接近了使用目标域全标注进行有监督训练(“Target only”,83.02% Dice)和微调(“Fine-tune”,85.30% Dice)的性能。 * 在更具挑战性的前列腺站点C上,SRPL-SFDA也取得了80.12%的Dice,显著优于其他方法,证明了其对显著领域偏移的鲁棒性。 * 在胎儿脑部数据集上,SRPL-SFDA获得了94.33%的Dice和0.78 mm的ASSD,同样在所有SFDA方法中排名第一,且性能非常接近有监督训练(95.53% Dice)。 * 可视化结果也表明,SRPL-SFDA的分割结果边界更清晰、更准确,特别是在其他方法出现欠分割或过分割的困难案例中表现稳健。
2. 消融实验与组件分析 * T3IE与SAM对伪标签质量的影响:实验表明,逐步加入T3IE和SAM精炼能持续提升伪标签的Dice分数。在前列腺数据集上,仅使用源模型(θs)得到73.79% Dice;加入T3IE提升至76.37%;进一步使用SAM(以初始伪标签框为提示)精炼提升至79.54%;最终使用T3IE生成的RGB图像(x_rgb)作为SAM输入,获得了最佳的伪标签质量(81.46% Dice)。这验证了T3IE在提升初始预测和生成SAM兼容输入方面的双重作用。 * CMSO与RPSR对模型训练的影响:在目标域训练阶段的消融实验显示,仅使用熵最小化(EM)效果最差。使用初始伪标签 y 进行全监督训练(PL(y))有所提升。使用SAM精炼后的伪标签 r 进行全监督训练(PL®)效果更好。进一步,仅对CMSO识别的可靠区域进行监督(RPL)比PL®更优。最终,结合可靠区域监督和不可靠区域熵最小化正则化(RPL+PEM,即本文的完整损失)取得了最佳性能(前列腺验证集84.46% Dice)。这证明了区分可靠/不可靠区域并分别进行监督和正则化的有效性。 * SAM提示类型分析:实验比较了使用掩码、点、边界框作为SAM提示的性能。结果显示,边界框提示(SAM(x)-box)在两种数据集上均稳定地优于掩码提示和点提示。这是因为边界框对伪标签中的噪声和错误更不敏感,仅提供物体的大致位置,在伪标签质量有限的领域适应场景中更具鲁棒性。 * 超参数分析:对损失平衡权重 λ 的分析表明,λ=10.0 时在验证集上取得最佳性能,设置 λ>0(即加入熵正则化)普遍优于 λ=0(仅使用可靠区域监督),但 λ 过大也会损害性能。
本研究成功提出并验证了一种新颖的、基于SAM引导的可靠伪标签生成框架(SRPL-SFDA),用于解决医学图像分割中的源数据自由领域适应问题。该方法的核心贡献在于巧妙地利用了大模型SAM的零样本分割能力来提升目标域伪标签的质量,并通过一种创新的、基于一致性的可靠性挖掘机制,实现了对噪声伪标签的鲁棒学习。
科学价值与应用意义: 1. 方法创新:首次将SAM的零样本推理能力系统性地引入SFDA框架,为解决目标域监督信号弱的问题提供了新思路。提出的T3IE策略不仅提升了源模型在目标域的初始表现,还生成了对SAM更友好的输入,是连接医学图像与自然图像预训练大模型的有效桥梁。 2. 性能卓越:在两个具有挑战性的多中心数据集上的实验表明,SRPL-SFDA的性能显著优于现有SFDA方法,并且能够逼近有监督训练的“性能天花板”,展示了其在现实临床场景中应对领域偏移的巨大潜力。 3. 实用性与泛化性:该方法不依赖于特定的网络架构(模型无关),易于集成到现有分割流程中。虽然实验基于2D MRI切片,但其核心思想(使用伪标签作为提示、适配大模型)可扩展至3D分割及其他成像模态(如CT、PET)。 4. 推动领域发展:这项工作为如何在保护数据隐私(不共享源数据)的前提下,利用现有大模型能力来提升模型在新环境中的适应性和鲁棒性,提供了一个行之有效的范例。
论文也坦诚讨论了当前方法的局限性及未来方向: 1. 验证集依赖:与社区常见做法一致,本方法使用目标域的有标注验证集进行模型选择。在实际完全无标签的场景中,这可能是一个挑战。 2. 仅利用SAM的推理能力:当前工作主要利用了SAM的零样本分割能力,未来可以探索如何将SAM强大的特征表示能力通过知识蒸馏迁移到目标域模型中。 3. 扩展到在线/测试时适应:当前方法假设有一批目标域数据可用于离线训练。对于数据流式到达的场景,研究在线或测试时适应将是未来的重要方向。 4. 3D分割的扩展:尽管SAM本身是2D模型,但近期已有工作(如Med-SAM)将其扩展至3D。本研究框架可与之结合,应用于3D医学图像分割任务。
SRPL-SFDA为解决医学图像分析中的领域适应问题提供了一个强大、通用且高效的解决方案,通过融合经典领域适应思想与前沿基础模型的能力,推动了在数据隐私受限条件下的模型可部署性研究。