分享自:

基于真实世界数据的数字病理学全切片基础模型:Prov-GigaPath

期刊:natureDOI:10.1038/s41586-024-07441-w

本文是一篇发表于国际顶级期刊《自然》(Nature) 的原创性研究论文,报告了一项在数字病理学领域具有突破性意义的“基础模型”的开发与应用。以下是对这项研究的全面介绍。

研究作者及发表信息

本文由一支由学术界与产业界精英组成的庞大合作团队完成。主要作者来自微软研究院 (Microsoft Research)、华盛顿大学保罗·G·艾伦计算机科学与工程学院 (Paul G. Allen School of Computer Science and Engineering, University of Washington)、普罗维登斯医疗系统基因组学部 (Providence Genomics)、普罗维登斯研究网络 (Providence Research Network) 以及普罗维登斯癌症研究所 (Providence Cancer Institute) 等多个顶尖机构。通讯作者为 Carlo Bifulco、Sheng Wang 和 Hoifung Poon。该研究于2024年5月22日在线发表,并于2024年6月6日刊登于《自然》期刊第630卷。

研究的学术背景与研究目标

本研究隶属于“计算病理学”这一新兴的交叉学科领域,旨在利用人工智能技术分析全视野数字切片 (Whole-Slide Images, WSIs),以辅助癌症诊断、分型、预后预测等临床决策。计算病理学面临的核心挑战在于其数据的独特性和复杂性:一张标准的千兆像素级病理切片可能由数万个小图像块(或称“图块”,tiles)组成。传统模型通常只能对每张切片中的一小部分图块进行子采样分析,因而错过了重要的“切片级”全局上下文信息。尽管已有研究尝试构建病理学基础模型以利用海量无标注数据,但其发展面临三大瓶颈:1)公开可用的病理数据相对稀缺且质量不一,限制了模型的泛化能力;2)缺乏能够有效同时捕捉局部图块细节和整个切片全局模式的新型模型架构;3)基于大规模真实世界数据训练的基础模型通常未对公众开放,限制了其在临床研究和应用中的广泛适用性。

为应对这些挑战,本研究设定了明确目标:开发一个开放的、基于大规模真实世界数据的、能够对整个千兆像素切片进行建模的病理学基础模型。该模型需在多种病理学任务上达到最先进的性能,并探索其在多模态(如视觉-语言)学习中的潜力,最终展示其在辅助临床诊断和决策支持方面的应用价值。

详细研究流程与实验方法

本研究流程系统且复杂,主要可分为五个核心阶段:大规模数据集构建、新型模型架构(GigaPath)设计、自监督预训练、多任务下游微调与评估,以及初步的视觉-语言对齐探索。

第一阶段:大规模真实世界数据集Prov-Path的构建 这是本研究的基石。研究团队利用全美大型医疗网络普罗维登斯(Providence)旗下28个癌症中心的资源,创建了名为“Prov-Path”的超大规模数字病理数据集。其规模远超此前常用的公共数据集如癌症基因组图谱 (The Cancer Genome Atlas, TCGA)。具体而言,Prov-Path 包含了来自超过30,000名患者、涵盖31种主要组织类型的171,189张苏木精-伊红 (H&E) 染色和免疫组化病理切片。这些切片被预处理成256×256像素的图像块,总计超过13.8亿个。预处理流程包括:使用大津算法进行组织分割以过滤背景区域;将所有切片统一重采样至0.5微米每像素(相当于20倍放大率)的标准分辨率;然后裁剪成图块并过滤组织覆盖率过低的图块。这一数据集的规模是TCGA的5倍以上(以图块数计),且包含了组织病理学发现、癌症分期、基因组突变谱以及关联的病理报告等多层次信息,为模型学习真实世界临床数据的异质性和复杂性提供了前所未有的资源。

第二阶段:新型模型架构GigaPath的设计 为了处理包含数万个图块的超长序列,研究团队提出了名为“GigaPath”的新型视觉Transformer架构。其核心设计包含两个部分:1)图块编码器:负责将每个256×256的图像块转换为一个紧凑的嵌入向量。该部分采用了标准的视觉Transformer架构。2)切片编码器:这是创新的关键。它接收由所有图块嵌入组成的超长序列,并利用Transformer架构生成考虑整个序列上下文的嵌入。然而,传统的Transformer自注意力机制的计算复杂度随序列长度呈平方级增长,无法直接用于处理数万个图块的序列。为此,研究团队巧妙地采用了他们最新开发的LongNet方法,该方法通过“膨胀自注意力”机制,能够将Transformer的有效上下文长度扩展到10亿个标记,从而高效地对整个千兆像素切片进行全局建模。

第三阶段:自监督预训练流程 模型的预训练分两步进行,均采用自监督学习,无需昂贵的人工标注。 1. 图块级预训练:首先,使用当前最先进的图像自监督学习框架DINOv2对图块编码器进行预训练。此阶段将每个图块视为独立样本,学习其视觉特征表示。 2. 切片级预训练:在图块编码器固定后,对切片编码器(基于LongNet)进行预训练。此阶段采用掩码自动编码器 (Masked Autoencoder) 方法。具体而言,随机屏蔽掉输入图块序列中的一部分图块嵌入,然后训练LongNet编码器-解码器结构来重建这些被屏蔽的图块特征。这个过程迫使模型从上下文中学习并整合整个切片的全局信息,以预测缺失部分的特征。

通过这两个阶段的预训练,最终得到的模型被命名为 Prov-GigaPath。研究团队强调,这是一个“开放权重”的基础模型,其源代码和预训练模型权重均已公开,以促进更广泛的研究。

第四阶段:多任务下游评估与基准测试 为了系统评估Prov-GigaPath作为病理学基础模型的有效性,研究团队构建了一个全面的数字病理学基准测试,涵盖了26项预测任务,使用Providence和TCGA的数据。这些任务主要分为两大类: - 病理组学任务:包括基因突变预测和肿瘤突变负荷 (Tumor Mutation Burden, TMB) 预测,共17项任务。例如,预测肺癌(LUAD)中EGFR、KRAS等5个关键基因的突变状态。 - 癌症亚型分型任务:对9种主要癌症类型(如非小细胞肺癌NSCLC、乳腺癌BRCA、结直肠癌COADREAD等)进行亚型分类。

评估时,将预训练的Prov-GigaPath模型在下游任务的标注数据上进行微调。微调时冻结图块编码器,仅微调LongNet切片编码器以及一个简单的注意力聚合层和分类器。研究将Prov-GigaPath与当前最先进的公开病理学基础模型进行了对比,包括HIPt(一种分层图像金字塔Transformer)、CTransPath和REMEDIS。

第五阶段:视觉-语言对齐探索 研究者进一步探索了Prov-GigaPath在多模态学习中的潜力。他们利用Prov-Path数据集中每张切片附带的病理报告,进行视觉-语言对比学习预训练。具体流程是:使用GPT-3.5清理原始病理报告,去除与癌症诊断无关的隐私和冗余信息;然后以Prov-GigaPath作为视觉编码器,以生物医学领域预训练语言模型PubMedBERT作为文本编码器,使用对比学习目标函数,使模型学会将整个切片图像与其对应的报告文本在特征空间中对齐。训练完成后,模型被用于零样本学习任务,即在不提供任何任务特定训练图像的情况下,仅通过文本提示(如“一张肺腺癌的病理图像”)来对癌症亚型或基因突变状态进行分类预测。

主要研究结果与数据分析

本研究取得了极为显著的成果,Prov-GigaPath在几乎所有评估任务中都表现出了超越现有最佳模型的性能。

1. 在病理组学任务上的结果: Prov-Gigaath在基因突变预测和TMB预测任务中全面领先。例如: - 在泛癌种18个生物标志物预测中,Prov-GigaPath的宏观AUROC和AUPRC分别比次优方法平均提升了3.3%和8.9%,在统计上具有显著优势。 - 在肺癌特异性5基因突变预测任务中,无论是在Providence数据还是TCGA数据上,Prov-GigaPath都达到了最佳性能。尤其是在TCGA-LUAD数据集上,尽管对比模型(如REMEDIS)是在TCGA数据上预训练的,而Prov-GigaPath并未使用TCGA预训练,但其在EGFR突变预测上的AUROC仍比REMEDIS高出23.5%,AUPRC高出66.4%,这充分证明了Prov-Path数据集的质量以及Prov-GigaPath模型的强大泛化能力。 - 在泛癌种TMB预测中,Prov-GigaPath的平均AUROC达到0.708,显著优于其他方法。 - 此外,在一个来自普罗维登斯的、时间上晚于预训练数据收集时间的新结直肠癌患者队列中,Prov-GigaPath依然保持了最优性能,验证了其在真实临床环境中的稳健性。

2. 在癌症亚型分型任务上的结果: Prov-GigaPath在全部9种癌症的亚型分型任务中均取得了最佳性能,并在其中6种癌症类型上相比次优模型有显著提升。例如,在NSCLC(区分肺腺癌和肺鳞癌)、BRCA(区分浸润性导管癌和浸润性小叶癌)等任务中,其AUROC均达到0.95左右的高水平。这表明Prov-Gigaath能够有效捕捉不同癌症亚型间细微的病理模式差异。

3. 视觉-语言对齐任务的结果: 经过病理报告对齐微调后的Prov-GigaPath,在零样本癌症亚型分型和基因突变预测任务中,表现显著优于MI-Zero、BioMedCLIP和PLIP等先进的病理视觉-语言模型。特别是在零样本基因突变预测这一新颖且更具挑战性的任务上,Prov-GigaPath在多个基因上的表现大幅领先。这证明了利用真实世界临床报告进行切片级对齐的有效性,为研究罕见癌症类型或新突变提供了新的工具潜力。

4. 消融分析与机制验证: 一系列消融实验证实了各个组件的关键作用: - 预训练数据的重要性:使用相同GigaPath架构,但在Prov-Path上预训练的模型性能远优于在TCGA上预训练的模型,凸显了大规模、多样化真实世界数据的价值。 - LongNet架构的优势:当使用相同的Prov-Path数据预训练时,GigaPath (LongNet) 的性能优于同样在该数据上预训练的HIPt模型,证明了LongNet在处理超长序列和整合全局信息方面的架构优势。 - 切片级预训练的必要性:若移除切片级LongNet预训练,仅使用随机初始化的切片编码器,模型在癌症分型任务上的平均AUROC会从0.903显著下降至0.886。若用简单的注意力聚合层完全替代LongNet编码器,性能也无法达到同等水平。这直接证实了针对整个切片进行长程依赖建模的必要性和有效性。 - DINOv2预训练策略的有效性:在图像块级预训练中,DINOv2策略优于其他自监督学习方法(如SimCLR、掩码自编码器),也优于使用ImageNet预训练的监督学习方法。

研究的结论与意义

本研究成功开发并验证了Prov-GigaPath,这是一个基于超大规模真实世界数据、采用创新长序列建模架构、并完全开放的病理学基础模型。

科学价值在于:第一,它首次系统性地证明了利用大规模、非精选的真实世界临床病理数据预训练基础模型的巨大潜力,其性能超越了基于较小规模、专家精选公共数据集训练的模型,为解决临床数据异质性和噪声问题提供了新思路。第二,它创新性地将LongNet这种超长序列建模技术引入数字病理学,成功实现了对千兆像素切片的全局上下文建模,突破了传统多示例学习或分层注意力方法的局限,为高分辨率医学图像分析提供了新的通用架构范式(GigaPath)。第三,它展示了通过结合病理报告进行视觉-语言对齐,可以实现有前景的零样本学习能力,为多模态整合的病理数据分析开辟了新方向。

应用价值则更为直接和深远:Prov-GigaPath在癌症亚型分型、基因突变预测等关键临床任务上展现出的卓越性能,预示着其强大的辅助诊断和决策支持潜力。作为一个开放权重的模型,它能够极大降低全球研究者和临床机构开发病理AI应用的门槛,加速计算病理学领域的研究进程和临床转化,最终有望提高癌症诊疗的精准性和可及性。

研究的亮点与创新

  1. 数据规模与质量创纪录:构建了迄今为止最大规模的真实世界数字病理数据集Prov-Path(超过13.8亿图块),为模型提供了前所未有的学习资源。
  2. 架构创新:提出GigaPath架构,首次成功将能够处理10亿标记的超长序列Transformer(LongNet)应用于全切片病理图像建模,实现了真正意义上的“全切片”上下文理解。
  3. 性能全面领先:在涵盖26项任务的综合基准测试中,取得了25项最优、18项显著优于次优模型的卓越成绩,确立了新的技术标杆。
  4. 开放性与可复现性:坚持开放科学原则,公开了模型权重、源代码和部分数据,对整个研究社区具有重要的推动作用。
  5. 探索多模态前沿:率先利用真实临床报告进行切片级视觉-语言对齐,并在零样本突变预测等新任务上展示了潜力,引领了该领域的前沿探索。

其他有价值的内容

研究团队在讨论中也指出了未来的研究方向,例如:探索更大模型规模和更多预训练数据下的“缩放定律”;尝试对图块编码器和切片编码器进行端到端联合预训练以进一步优化性能;以及探索将更先进的多模态对话框架(如LLaVA-Med)集成到病理分析中,以构建能够与临床医生进行自然语言交互的智能助手。这些展望为该领域的持续发展描绘了清晰的路线图。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com