分享自:

FairDiffusion:通过公平贝叶斯扰动增强潜在扩散模型的公平性

期刊:Science AdvancesDOI:10.1126/sciadv.ads4593

学术报告:《FairDiffusion: Enhancing Equity in Latent Diffusion Models via Fair Bayesian Perturbation》

作者及发表信息

本研究由Yan Luo(哈佛大学医学院Schepens眼科研究所、哈佛大学AI与机器人实验室)、Muhammad Osama Khan(纽约大学阿布扎比分校人工智能与机器人中心)、Congcong Wen(纽约大学AIR实验室)等共同作者合作完成,通讯作者为Mengyu Wang(哈佛大学Kempner自然与人工智能研究所)。论文《FairDiffusion》于2025年4月4日发表在Science Advances(期刊编号:sci. adv. 11, eads4593)。

学术背景

研究领域:本研究属于医疗人工智能(AI)与生成模型公平性的交叉领域,聚焦于潜在扩散模型(Latent Diffusion Models, LDMs)在医学图像生成中的公平性问题。

研究动机:尽管扩散模型(如Stable Diffusion)在文本到图像生成任务中表现出色,但其在不同人口统计学亚组(如性别、种族、民族)中的生成质量是否存在系统性偏差尚不明确。这种偏差可能导致医疗AI在诊断或教育中加剧现有健康不平等。例如,已有研究表明,Stable Diffusion生成的视网膜图像在白人、非西班牙裔群体中质量更高,而其他群体的图像质量或临床特征对齐性较差。

研究目标
1. 评估现有扩散模型在医学图像生成中的公平性缺陷;
2. 提出FairDiffusion框架,通过公平贝叶斯扰动(Fair Bayesian Perturbation)优化模型,减少生成偏差;
3. 构建FairGenMed数据集,为医疗生成模型的公平性研究提供标准化基准。

研究流程与方法

1. 数据准备与评估基准

  • FairGenMed数据集:包含10,000例患者的扫描激光眼底镜(SLO)图像,涵盖性别(女性5,824例,男性4,176例)、种族(亚裔819例、黑人1,491例、白人7,690例)、民族(西班牙裔378例、非西班牙裔9,622例)等属性。每例数据附带临床指标(如杯盘比CDR、视网膜神经纤维层厚度RNFLT)和诊断标签(如青光眼分期)。
  • 外部验证数据集:包括皮肤镜图像数据集HAM10000和胸部X光数据集CheXpert,用于验证方法的泛化性。

2. 公平性评估框架

研究设计了两类评估指标:
- 图像生成质量
- Fréchet Inception Distance (FID):衡量生成图像与真实图像的分布差异,数值越低越好。
- Inception Score (IS):评估生成图像的多样性和真实性,数值越高越好。
- 公平性扩展指标(ES-FID/ES-IS):计算不同亚组间FID/IS的差异,量化偏差程度。
- 临床特征语义对齐
- 训练分类器(如EfficientNet、ViT-B)对生成图像进行疾病分类(如青光眼检测),通过AUCES-AUC评估模型在不同亚组中的诊断一致性。

3. FairDiffusion模型设计

核心创新:在Stable Diffusion v1.5基础上引入公平贝叶斯扰动,通过以下步骤优化生成公平性:
1. 贝叶斯优化框架:将不同人口亚组的生成性能差异建模为黑箱函数,通过高斯过程(Gaussian Process)动态调整扰动参数。
2. 自适应扰动:对每个亚组的潜在空间施加条件扰动ζ{𝓭_i},其强度由贝叶斯优化器根据历史性能数据(窗口大小w=30)动态调整。
3. 探索-利用平衡:设置扰动更新率ν=0.95,平衡局部优化与全局探索。

4. 实验设计

  • 基线对比:与原始Stable Diffusion、去偏扩散模型(Debiased Diffusion)及随机扰动基线(R-Perturbation)对比。
  • 评估任务
    • 图像生成:在FairGenMed上生成SLO图像,计算各亚组的FID/IS。
    • 分类任务:使用生成图像训练分类器,在真实测试集上评估AUC。

主要结果

1. 图像生成质量的公平性提升

  • 整体性能:FairDiffusion将FID从50.1降至48.3(p<0.001),IS从2.43提升至2.64(p<0.005)。
  • 亚组改进
    • 黑人群体:FID降低7.84(从122.6至114.8),IS提升0.6(p<0.001);
    • 西班牙裔群体:FID显著降低11.79(从138.4至126.6)。
  • 公平性指标:ES-FID在种族、性别、民族维度分别降低7.9、3.5、4.7(p<0.001)。

2. 临床特征语义对齐优化

  • 青光眼分类
    • 亚洲亚组AUC提升10.03%(p<0.001),男性亚组提升7.58%。
    • ES-AUC在种族维度从0.578提升至0.621。
  • CDR预测:黑人亚组AUC提升4.5%(p<0.001),西班牙裔亚组提升2.7%。

3. 跨模态验证

在HAM10000和CheXpert上的实验显示:
- 皮肤镜图像:ES-FID在性别维度降低19.29,ES-IS提升1.18。
- 胸部X光:ES-AUC在种族维度从51.72提升至55.24。

结论与价值

科学意义
1. 首次系统性揭示了扩散模型在医学图像生成中的公平性缺陷,并提出可量化的评估框架。
2. FairDiffusion通过贝叶斯扰动实现了无需重新训练的公平性优化,为生成模型的伦理设计提供新范式。

应用价值
- 医疗教育:生成多样化的病例图像,避免教学数据偏差。
- 数据增强:为罕见病或少数群体生成合成数据,弥补真实数据不足。

研究亮点

  1. 方法创新:将贝叶斯优化引入生成模型公平性调控,解决了传统重训练方法的高成本问题。
  2. 数据集贡献:FairGenMed是首个包含多维度人口属性与定量临床指标的医疗生成数据集。
  3. 跨模态验证:在眼科、皮肤科、放射科三类医学影像中均验证了方法的普适性。

其他价值

  • 开源资源:作者公开了代码(Zenodo DOI:10.5281/zenodo.14606588)和数据集(DOI:10.5281/zenodo.13178701),推动领域协作。
  • 临床启示:研究呼吁在医疗AI开发中纳入公平性评估,避免技术加剧健康差距。

(报告字数:约1,800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com