面向联邦半监督医学图像分割的学术研究报告
一、 研究团队与发表信息
本研究的核心作者团队包括:胡慧思(IEEE高级会员,深圳大学计算机与软件工程学院)、张百铭(深圳大学计算机与软件工程学院)、陈诚(哈佛医学院/麻省总医院先进医学计算与分析中心)以及秦静(IEEE高级会员,香港理工大学赛马会智康研究院)。该研究成果已发表于 IEEE Transactions on Medical Imaging 期刊,并于2023年正式在线发表。
二、 学术背景与研究目的
本研究隶属于医学图像分析与人工智能交叉领域,具体聚焦于联邦学习与半监督学习相结合的前沿方向——联邦半监督分割。在现实的临床环境中,由于隐私法规、数据安全以及专业标注资源匮乏等限制,构建大规模、集中式标注数据集以训练高性能的深度学习模型面临巨大挑战。联邦学习作为一种分布式机器学习范式,允许各机构(客户端)在不共享本地原始数据的前提下协作训练一个共享的全局模型,从而有效保护数据隐私。然而,现有的联邦学习研究大多假设每个客户端的数据都已完全标注,这在现实中难以实现,因为许多临床站点可能只有未标注的图像数据。
因此,本研究旨在解决一个更具现实意义但更具挑战性的问题:联邦半监督分割。在该设定下,仅有少数客户端拥有标注数据,而其他多数客户端仅能提供未标注数据。研究的目标是充分利用这些分布在不同客户端、大部分未标注的医学图像,协同训练一个高质量的、具有泛化能力的全局分割模型,以应用于COVID-19胸部X光/CT感染区域分割、结直肠息肉分割等关键医学任务。
三、 研究方法与工作流程
本研究提出了一种新颖的FSSS方法,其核心在于通过基于原型的伪标签生成和原型对比学习,将标注客户端的知识安全、有效地迁移到未标注客户端,并设计了动态模型聚合策略以优化全局模型的更新。整体框架包含三个核心创新模块,具体工作流程如下:
基于原型的伪标签去偏:
- 目标:解决在非独立同分布数据下,仅依赖全局模型为未标注数据生成伪标签可能存在的偏差和不准确问题。
- 流程:
- 客户端原型计算:在每个标注客户端,利用其本地模型和真实标注,计算一个客户端级前景原型,该原型是该客户端所有前景像素特征向量的平均值,表征了该客户端数据的分布特征。同样,在每个未标注客户端,利用其当前模型和预测(通过阈值过滤)计算其自身的客户端级前景原型。
- 标注聚合模型构建:对于一个特定的未标注客户端,服务器会根据其原型与所有标注客户端原型之间的相似度(如余弦相似度),为每个标注客户端的模型分配聚合权重。权重越高,表示该标注客户端的数据分布与当前未标注客户端越相似。通过加权平均这些标注客户端的模型参数,为该未标注客户端“量身定制”一个标注聚合模型。这个模型比全局模型更能适应该未标注客户端的数据分布。
- 一致性-熵感知的伪标签选择:在未标注客户端的本地训练中,对于一张弱增强的图像,同时输入到本地在线模型(由全局模型初始化)和标注聚合模型中,得到两个预测结果。研究提出一种双重筛选策略:首先,计算两个预测的熵,过滤掉高熵(即预测置信度低)的像素;其次,要求两个模型的预测在阈值化后保持一致。只有同时满足低熵和一致性的像素预测,才会被选作可靠的伪标签。
- 模型训练:使用筛选出的高质量伪标签,对强增强版本的同一图像进行监督训练(采用Dice损失函数),从而更新未标注客户端的本地模型。这一过程有效利用了标注客户端的知识来引导和“去偏”未标注客户端的学习。
原型对比学习:
- 目标:增强未标注客户端模型的特征判别能力,使其学习到更具区分性的特征表示。
- 流程:
- 图像级原型提取与传输:在每个标注客户端,利用其标注数据,为每个类别(前景、背景)计算多个图像级原型(即每张图像中每个类别的特征质心)。为了降低通信开销和保护隐私,服务器会对来自所有标注客户端的图像级原型进行K-means聚类,得到一组具有代表性的原型簇中心,然后将其分发给未标注客户端。
- 原型库维护:每个未标注客户端维护一个原型库,存储从服务器接收到的历史原型簇中心,并使用指数移动平均进行更新,以保持知识的连续性。
- 对比学习损失:在未标注客户端训练时,对于其本地数据生成的伪标签对应的前景特征,计算其与原型库中所有前景原型簇中心和背景原型簇中心的相似度。通过InfoNCE损失函数,拉近该特征与正确类别(前景)原型的距离,同时推远其与错误类别(背景)原型的距离。这促使模型学习到类内紧凑、类间分离的特征空间。
动态模型聚合:
- 目标:解决传统联邦平均算法在FSSS场景下,因未标注客户端模型在训练初期不稳定、性能不佳而可能拖累全局模型收敛的问题。
- 流程:
- 优化程度系数:在每一轮联邦通信中,服务器为每个客户端(包括标注和未标注)的本地模型计算一个优化程度系数。对于标注客户端,其系数固定为1,因为其训练基于真实标注,被认为是充分优化的。
- 未标注客户端系数计算:对于未标注客户端,其优化程度系数由其本地模型与标注聚合模型在弱增强数据上预测的一致性比例来度量。一致性越高,说明该未标注客户端的模型学习得越好,其系数越大。
- 加权聚合:全局模型的更新不再仅基于各客户端的数据量大小,而是结合了数据量和优化程度系数进行动态加权平均。这样,在训练早期,未标注客户端模型如果表现不佳(一致性低),其对全局模型的贡献权重会相应降低,从而保护全局模型不被“污染”;随着训练进行,未标注模型性能提升,其权重也会增加。
四、 主要实验结果与分析
研究团队在三个具有挑战性的医学图像分割任务上进行了广泛的实验验证:COVID-19胸部X光感染区域分割、COVID-19胸部CT感染区域分割以及结直肠息肉分割。实验设置模拟了真实的联邦场景,将数据按来源或通过狄利克雷分布划分到多个虚拟客户端中,并指定其中一部分为标注客户端,其余为未标注客户端。
- 消融实验:研究首先验证了所提出各个组件的有效性。以在未标注客户端简单应用FixMatch方法作为基线,结果性能较差。逐一引入动态模型聚合、伪标签去偏和原型对比学习后,各项评估指标(如Dice系数、豪斯多夫距离HD95)均得到显著提升。当三个组件共同作用时,取得了最佳性能,证明了每个模块都是必要且有效的。例如,在COVID-19 X光分割任务上(4个标注客户端/10个总客户端),完整方法相比仅使用伪标签去偏,在Dice系数上平均提升了1.88%,在HD95上改善了3.21个像素单位。
- 伪标签策略对比:实验比较了不同的伪标签生成策略。仅使用全局模型或仅使用标注聚合模型生成伪标签,性能均明显下降。将全局模型与基于随机权重、模型参数相似度或数据量生成的标注聚合模型结合,其效果也均不如本研究提出的基于原型相似度生成的标注聚合模型与全局模型结合的策略,这凸显了基于原型的知识迁移在缓解数据分布差异、提升伪标签质量方面的优越性。
- 与先进方法对比:研究将所提方法与最新的联邦半监督学习方法(如FedIRM, RSCFed, FedCon)以及仅使用标注客户端训练的基线方法进行了对比。实验结果表明,无论是在FedAvg还是FedProx作为联邦学习聚合框架下,本研究提出的方法在三个分割任务的绝大多数评估指标(AUC, Jaccard指数, Dice系数, HD95)上均 consistently 优于其他对比方法。例如,在COVID-19 X光分割任务(5个标注客户端)中,本方法在Dice系数上比当时最先进的RSCFed方法高出1.72%。统计检验(t检验)的p值大多小于0.05,证明了性能提升的统计显著性。
- 可视化分析:定性结果(分割效果图)直观显示,本方法生成的分割结果更接近真实标注,边界更清晰,误报和漏报更少,尤其是在病变区域形状复杂或对比度较低的情况下。
- 鲁棒性与泛化性分析:在结直肠息肉和COVID-19 CT分割任务中,未标注客户端的数据源与标注客户端不同(分布外数据),存在较大的数据漂移。实验结果显示,所有方法在未标注客户端上的性能均低于标注客户端,但本方法的下降幅度最小,且在未标注客户端上的性能仍显著优于其他方法。这证明了本方法在存在数据异构性的真实场景下具有良好的鲁棒性和泛化能力。
- 超参数与敏感性分析:研究还对原型对比学习的温度参数τ、原型生成阈值h、原型簇中心数量l等关键超参数进行了分析,确定了合理的默认值,并展示了方法在一定参数范围内的稳定性。
五、 研究结论与价值
本研究成功提出并验证了一种针对联邦半监督医学图像分割问题的创新解决方案。其核心贡献在于: * 科学价值:首次系统性地探索了在严格的隐私保护约束下,如何将标注客户端的模型知识和特征原型知识安全、有效地迁移到未标注客户端,以指导其进行可靠的半监督学习。提出的基于原型的伪标签去偏机制和原型对比学习范式,为联邦学习与半监督学习的深度结合提供了新的技术思路。 * 应用价值:该方法极大地提升了联邦学习在现实医疗场景中的适用性。它允许那些缺乏标注专家或资源的医疗机构,仅凭其未标注的数据也能参与到协同建模中,共同贡献数据价值,从而有望利用更广泛的数据训练出更强大、更鲁棒的AI辅助诊断模型,推动医学AI的普惠化发展,同时严格遵守数据隐私法规。
六、 研究亮点
- 问题设定的现实性:聚焦于“部分客户端有标注、部分客户端无标注”这一极具现实意义的联邦半监督分割场景,填补了该领域的研究空白。
- 方法的新颖性:
- 双重知识迁移:创新性地提出了通过“标注聚合模型”(模型参数知识)和“图像级原型”(特征表示知识)两种形式,将标注客户端的知识迁移至未标注客户端。
- 一致性-熵感知筛选:设计了双重筛选机制来生成高质量的伪标签,有效降低了噪声标签对模型训练的负面影响。
- 动态一致性感知聚合:提出了基于模型优化程度(通过一致性衡量)的动态加权聚合策略,缓解了未标注客户端在训练初期对全局模型的负面影响,提升了联邦训练的稳定性和最终性能。
- 验证的充分性:在三个不同的医学图像分割任务、多种数据分布设置下进行了全面实验,通过详尽的定量指标、定性可视化和统计检验,充分证明了方法的有效性、优越性和鲁棒性。
七、 其他有价值的内容
研究也坦诚讨论了本方法的局限性:首先,由于需要向未标注客户端传输额外的标注聚合模型和原型,通信开销约为基线方法的1到2倍(取决于未标注客户端的比例)。其次,方法主要侧重于从标注客户端向未标注客户端的知识迁移,并未显式地处理客户端间可能存在的大规模数据分布差异(即统计异质性)。在数据分布差异极端严重的情况下,标注客户端提供的知识可能不再可靠,方法的性能可能会受限。这为未来的研究指明了方向,例如探索在联邦半监督框架下如何更好地对齐不同客户端的数据分布。