作者:Piyush Tiwary1, Kinjawl Bhattacharyya1, Prathosh A.P.1
1印度科学理工学院电气通信工程系
发表于:Proceedings of the 42nd International Conference on Machine Learning, PMLR 267, 2025
医学图像分割模型在实际应用中面临一个关键挑战:由于成像设备、协议和患者群体的差异,训练模型在新域(target domain)上的表现往往显著下降。这一问题源于传统经验风险最小化(Empirical Risk Minimization, ERM)框架对独立同分布假设的依赖。域泛化(Domain Generalization, DG)方法旨在解决这一问题,主要包括表示学习和数据增强(Data Augmentation, DAug)两大方向。
表示学习方法通过寻找域不变特征(domain-invariant features)来提高泛化能力,但往往依赖特定技巧且缺乏理论保证。相比之下,数据增强方法通过合成样本来丰富模型表示,已展现出与表示学习方法相当甚至更优的性能。本研究提出了一种新颖的Langevin数据增强(Langevin Data Augmentation, LangDAug)方法,专门针对2D医学图像分割中的多源域泛化问题。
LangDAug的核心思想是利用基于能量的模型(Energy-Based Models, EBMs)在不同源域之间进行迁移,通过Langevin动力学(Langevin Dynamics, LD)生成中间样本。这些中间样本作为”桥梁”连接不同源域,从而扩展模型的域覆盖范围。整个方法包含三个主要步骤:
对于两个不同的源域Di和Dj,训练一个EBM Eθij来实现在两域间的迁移。使用对比散度损失函数:
∇θij LCD = 𝔼_pDj[∇θij Eθij(x)] - 𝔼_pθij[∇θij Eθij(x)]
其中pθij = exp(-Eθij(x))/Zθij。由于直接从pθij采样不可行,研究采用Langevin动力学进行近似采样:
x^{t+1} = x^t - α/2 ∇x Eθij(x^t) + αε
初始化x^0 ~ pDi(x),通过k步LD迭代生成样本。
对于每个样本(xj,yj)∈Di,运行k步LD生成k个中间样本{xj^t}t=1^k。这些”Langevin数据”{(xj^t,yj)}被用于增强ERM训练。理论分析表明,经过k步LD后,数据Dij^k ≡ {xj^k,yj}j=1^ni可视为来自一个新域。
研究提供了LangDAug的理论分析,主要贡献包括:
理论结果表明,LangDAug的性能提升源于其能够根据数据的”真实”自由度(本征维度)而非存储维度(环境维度)来限制模型的泛化能力。
研究在两个医学图像分割基准上进行了评估:
使用来自四个临床站点的数据,采用留一法协议评估。LangDAug在所有域上都表现出最稳定的性能:
使用来自六个临床站点的116个T2加权MRI扫描:
LangDAug能够有效提升现有域随机化方法的性能:
本研究提出了一种创新的Langevin数据增强方法,用于解决医学图像分割中的多源域泛化问题。主要贡献包括:
该研究的科学价值在于: - 为域泛化问题提供了新的基于能量的方法视角 - 建立了Langevin动力学与域泛化性能之间的理论联系 - 为医学图像分析中的分布偏移问题提供了实用解决方案
临床应用价值包括: - 提高医学影像AI模型在新医院/新设备上的泛化能力 - 减少对大规模目标域标注数据的依赖 - 促进医疗AI模型的实际部署和临床转化
作者指出了两个主要限制: 1. 计算成本:EBM数量随源域数量增加而增加 2. 2D处理:当前方法处理3D体积数据时需要切片
未来工作可探索: - 共享架构与域条件来提升可扩展性 - 直接处理3D数据以更好地建模空间关系 - 开发更高效的采样策略降低计算成本
这项研究为医学图像分析中的域泛化问题提供了新的思路和解决方案,具有重要的理论和实践意义。