分享自:

早期非小细胞肺癌术后进展风险的稳健联邦学习模型

期刊:Cancer ImagingDOI:10.1186/s40644-025-00911-y

基于联邦学习的早期非小细胞肺癌术后进展风险预测模型研究

作者及发表信息
本研究由Yu Liu(第一作者,单位:重庆大数据协同创新中心、桂林航天工业学院智能检测与信息处理实验室)、Xiaobei Duan(江门市中心医院核医学科)、Xiangmeng Chen(通讯作者,江门市中心医院放射科)等来自中国多家医疗与科研机构的团队合作完成,发表于2025年的开放获取期刊*Cancer Imaging*(DOI: 10.1186/s40644-025-00911-y)。研究遵循知识共享许可协议(CC BY 4.0),数据可公开获取。


学术背景

科学领域与背景知识
非小细胞肺癌(NSCLC)占肺癌病例的85%,术后进展(复发或转移)率高达18-34%。目前TNM分期系统虽能评估疾病范围,但难以精准预测同分期患者的异质性预后。深度学习(DL)在医学影像分析中展现出潜力,但多中心数据共享面临隐私与伦理问题。联邦学习(FL)作为一种分布式机器学习框架,可在不共享原始数据的前提下整合多中心知识,但现有方法存在数据异质性和类别不平衡(如仅20%患者出现术后进展)的挑战。

研究目标
开发一种鲁棒联邦学习模型(RFed),通过术前CT影像预测早期(I/II期)NSCLC患者的术后进展风险,以辅助临床分层管理和个性化治疗决策。


研究流程与方法

1. 数据采集与预处理

  • 研究对象:回顾性纳入来自4个中心的926例经手术切除的I/II期实体型NSCLC患者,排除合并其他恶性肿瘤或随访不足3年者。
  • 数据分组:各中心数据随机分为训练集、验证集和测试集(如中心A:198例,训练/验证/测试=96/24/78例)。
  • 影像处理:由资深放射科医师标注病灶区域(ROI),归一化为128×128像素,采用边界框粗分割而非像素级标注,避免精细标注对深度学习特征的干扰。

2. RFed模型构建

(1)特征提取模型
- 改进1:参数聚合策略
提出指数渐进傅里叶聚合(EPFA)算法:
- 低频共享:通过傅里叶变换聚合各中心模型的低频参数(反映全局特征),保留高频参数(反映局部特征)。
- 三阶段迁移学习(ATTL):结合分布差异度量(A-distance)分阶段优化全局模型与本地模型的参数传递,防止性能退化。
- 改进2:类别不平衡处理
- 边际校正损失函数:调整分类边际(margin),平衡多数类(非进展)与少数类(进展)的预测权重(公式4-6)。
- 对比预测编码(CPC):约束本地模型特征与全局特征的相似性,提升泛化性(公式7)。

(2)分类器构建
- 使用贝叶斯极限学习机(Bayesian Extreme Learning Machine)对提取的7,616个特征进行筛选(MRMR算法)和分类。

3. 模型评估

  • 性能指标:AUC(曲线下面积)、F1分数、决策曲线分析(DCA)、Kaplan-Meier生存分析。
  • 对比实验:与FedAvg、FedBN等5种联邦学习算法及临床模型(基于肿瘤直径、吸烟史等传统指标)对比。
  • 鲁棒性验证:五折交叉验证、跨中心外推测试(OOD)、不同网络架构(ResNet34/ViT等)适配性分析。

主要结果

  1. 诊断性能

    • RFed在4个测试中心的平均AUC达0.923(临床模型仅0.696),Delong检验显示显著差异(p<0.05)。
    • DCA表明,RFed在0.02-0.99风险阈值范围内均提供更高净收益(图2)。
  2. 生存分析

    • Kaplan-Meier曲线显示,RFed划分的高/低风险组生存差异更显著(log-rank p<0.001),优于临床模型(图3)。
    • 多变量Cox回归证实RFed是独立预后因素(HR=9.176, p<0.001)。
  3. 泛化能力

    • 跨中心测试AUC为0.770-0.818,五折交叉验证AUC达0.858-0.941(图5)。
    • 在皮肤癌数据中验证,RFed仍保持最优性能(平均AUC=0.908)。
  4. 可解释性

    • t-SNE可视化显示RFed显著提升类别可分性(图6)。
    • 热图分析揭示模型同时捕获中心共性特征(跨中心高相关)与中心特异性特征(图7a-b)。
    • 类激活映射(CAM)显示进展组病灶区域激活更显著(图7c-d)。

结论与价值

科学价值
- 首次将联邦学习与边际校正技术结合,解决了医学FL中的异质性与类别不平衡问题。
- 通过EPFA和ATTL算法,实现了全局知识共享与本地个性化的平衡。

临床应用价值
- 为早期NSCLC患者提供无创、精准的术后风险预测工具,辅助制定辅助化疗或密切随访策略。
- 多中心协作框架符合隐私保护需求,推动智能医疗的可持续发展。


研究亮点

  1. 方法创新:EPFA参数聚合与边际校正损失函数为联邦学习在医学领域的应用提供新范式。
  2. 多维度验证:涵盖诊断性能、生存分析、跨中心/跨病种泛化性及可解释性分析。
  3. 临床转化潜力:模型已通过多中心回顾性验证,下一步需前瞻性临床试验进一步优化阈值。

局限性:样本量受多中心数据限制,未来需引入多模态数据(如基因组学)提升预测精度。

(注:文中涉及的算法细节与补充材料可参考原文献Supplementary S1-S7。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com