这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
npj Precision Oncology期刊最新研究:基于联邦学习的可解释深度学习模型预测皮肤鳞状细胞癌疾病进展风险
作者及机构
本研究由Juan I. Pisula(科隆大学医学院生物医学信息学研究所)、Doris Helbig(科隆大学医院皮肤科)等12位共同第一作者,以及Katarzyna Bozek和Johannes Brägelmann(科隆大学转化基因组学系)作为共同通讯作者领导。合作机构包括德国科隆大学、慕尼黑工业大学、波恩大学医院等多家临床中心。研究于2025年发表在npj Precision Oncology期刊(DOI: 10.1038/s41698-025-00997-4)。
学术背景
皮肤鳞状细胞癌(Cutaneous Squamous Cell Carcinoma, CSCC)是全球第二常见的非黑色素瘤皮肤癌,美国每年新增100万病例。尽管手术切除是主要治疗手段,但部分患者会出现局部复发或转移,预后较差。现有临床分期系统(如AJCC、NCCN)对高风险患者的识别能力有限,而基于基因表达的预测方法成本高且未涵盖局部复发风险。因此,研究者提出利用常规诊断的H&E染色组织切片,通过深度学习模型预测疾病进展风险,同时结合联邦学习(Federated Learning, FL)解决多中心数据共享的隐私问题。
研究流程与方法
1. 数据收集与预处理
- 患者队列:纳入三个独立临床中心的CSCC患者数据:
- 科隆队列(166例患者,219张全切片图像/WSIs),慕尼黑队列(51例,129张WSIs),波恩队列(35例,291张WSIs)。
- 定义疾病进展为术后2年内出现局部复发或转移。
- 图像处理:WSIs通过40倍分辨率扫描,分割为256×256像素的 patches,过滤无组织区域后,使用EfficientNet-V2提取特征向量(每张切片平均生成11,330个特征向量)。
2. 模型开发与训练
- 多实例学习框架:采用Transformer架构(基于RoBERTa预训练模型),仅微调归一化层以降低计算成本。通过多头注意力池化缩短序列长度,最终通过线性层分类。
- 联邦学习策略:模型在三个中心本地训练,仅共享参数而非原始数据,进行50轮联邦平均(Federated Averaging)。优化器为Adam(学习率1e-4,批量大小4)。
- 验证方法:按患者分层划分训练/验证/测试集(65%-15%-20%),以加权AUROC作为模型选择指标。
3. 可解释性分析
- 关键区域定位:使用积分梯度(Integrated Gradients, IG)识别WSIs中对预测贡献最大的区域。
- 细胞特征量化:通过HoVer-Net模型分割细胞核并分类(肿瘤细胞、淋巴细胞、间质细胞等),计算524个形态学和空间分布特征(如核偏心率、细胞类型空间自相关性)。
- 统计分析:比较进展与非进展患者的特征差异,使用Mann-Whitney U检验和Common Language Effect Size(CLES)评估效应量。
4. 生存分析与临床验证
- 将模型预测风险分数与临床病理参数(如神经浸润、肿瘤厚度)对比,通过Cox比例风险模型计算风险比(HR),并构建多变量模型评估预测独立性。
主要结果
模型性能
- 单中心训练时,科隆队列测试集AUROC达0.92,但慕尼黑队列仅0.46(因组织处理差异导致域偏移)。
- 联邦学习后,模型在全部队列中AUROC提升至0.82,多变量分析中图像风险分数的HR高达7.42(p<0.01),显著优于临床参数(如神经浸润HR=3.58)。
可解释性发现
- 肿瘤边界与微环境:进展患者的预测关键区域多位于肿瘤外围(间质细胞富集区),而非进展患者的关键区域在肿瘤内部(高肿瘤细胞密度)。
- 细胞形态差异:进展患者的肿瘤细胞核更小、偏心率更高(p<0.0001),组织异质性更强(如平均最近邻比ANNR更低)。
生物学意义
- 核形态异常(如核变形)可能与上皮-间质转化(EMT)或基因组不稳定性相关,支持了肿瘤侵袭性的形态学基础理论。
结论与价值
科学价值
- 首次证明CSCC进展风险可通过H&E切片的深度学习模型预测,且联邦学习有效解决了多中心数据异构性问题。
- 揭示了肿瘤边界微环境的空间特征和核形态指标作为潜在生物标志物。
临床应用
- 模型仅需常规病理切片,无需额外检测成本,适合推广至资源有限地区。
- 联邦学习框架避免了数据共享的隐私风险,便于动态纳入新中心数据。
研究亮点
技术创新:
- 结合Transformer与多实例学习处理WSIs长序列问题,参数效率优化策略降低计算负担。
- 开发了针对CSCC的细胞特征量化流程(524个特征),为其他癌症研究提供方法论参考。
跨学科意义:
- 将计算病理学与联邦学习结合,为多中心协作研究树立范例。
局限性:
- 样本量较小(尤其慕尼黑队列),需更大规模验证;核形态的分子机制需进一步实验验证。
补充说明
研究代码已开源(GitHub: bozeklab/cscc-response),数据需经作者授权获取。