分享自:

基于视网膜图像通用疾病检测的基础模型:RETFound

期刊:natureDOI:10.1038/s41586-023-06555-x

本次介绍的是一项发表于《Nature》期刊2023年10月5日第622卷的原创性研究。该研究由英国伦敦大学学院、Moorfields眼科医院等机构的Yukun Zhou, Pearse A. Keane等学者及其合作团队主导完成。论文标题为“A foundation model for generalizable disease detection from retinal images”(一个用于视网膜图像通用疾病检测的基础模型)。以下将从七个方面对该研究进行详细介绍。

一、 研究背景与目的

该研究属于医学人工智能领域,具体聚焦于眼科影像分析与疾病预测。尽管基于深度学习的医学AI在疾病诊断,特别是视网膜疾病识别方面已取得显著进展,甚至达到或超越专家水平,但其发展面临两大核心瓶颈:首先,模型开发极度依赖大量由专家标注的高质量标签数据,这给医疗专家带来了沉重的工作负担,且专家资源的稀缺性使得海量医疗数据无法得到有效利用;其次,现有模型通常是针对特定任务(任务特定性)开发的,其泛化能力有限,难以直接应用于其他临床场景。

为应对这些挑战,自监督学习(Self-Supervised Learning, SSL)技术成为研究热点。SSL通过从数据本身而非外部标签中获取监督信号,利用“前置任务”(Pretext Task)在海量无标签数据上学习通用的特征表示。这种预训练模型(或称基础模型, Foundation Model)可以在拥有少量标签时,被高效地微调以适应各种下游任务,展现出强大的泛化能力和标签效率(Label Efficiency)。然而,在视网膜成像领域,此前的研究多集中于单一疾病的检测,缺乏一个能够在多种复杂任务上(包括眼部疾病诊断、预后以及全身性系统疾病预测)均表现出优异泛化能力的单一SSL基础模型。

因此,本研究旨在构建并验证一个名为“RETFound”的视网膜图像基础模型。具体目标包括:1)利用大规模无标签视网膜图像,通过SSL训练一个通用表征模型;2)将该模型高效地适配到一系列具有挑战性的下游疾病检测任务中,包括威胁视力的眼部疾病诊断与预后,以及心力衰竭、心肌梗塞等复杂系统疾病的发病风险预测;3)系统性评估RETFound在性能、泛化能力和标签效率方面的优势,并与现有先进方法进行对比;4)探索模型的可解释性,理解其学习机制;5)公开模型,以促进广泛的临床AI应用与研究。

二、 详细研究流程

本研究工作流程可分为两大阶段:基础模型构建与下游任务适配评估。 * 第一阶段:RETFound基础模型的构建 1. 数据收集与处理:研究团队构建了一个大规模的无标签视网膜图像数据集,用于SSL预训练。数据来源主要包括Moorfields糖尿病图像数据集和公共数据集。总计使用了904,170张彩色眼底照相(Colour Fundus Photography, CFP)和736,442张光学相干断层扫描(Optical Coherence Tomography, OCT)图像。所有图像经过预处理,如使用AutoMorph工具去除背景、保留视网膜区域,并统一调整尺寸。 2. 自监督预训练方法:研究采用了一种先进的生成式SSL方法——掩码自编码器。其核心思想是:将输入图像的大部分(CFP掩码率75%,OCT掩码率85%)随机“掩码”掉(即置为零),然后让模型(包含编码器和解码器)根据剩余的可见部分,学习重建完整的原始图像。这一前置任务迫使模型理解图像的整体结构、解剖上下文和病理特征,从而学习到具有高度泛化能力的表征。模型架构基于Vision Transformer,编码器为ViT-Large,解码器为ViT-Small。训练使用了8块NVIDIA Tesla A100 GPU,耗时约2周。 3. 预训练策略创新:RETFound并非从零开始训练。它采用了一种分阶段的预训练策略:首先在自然图像数据集ImageNet-1K(约140万张)上使用SSL进行预训练,获得通用视觉特征;然后将此作为起点,再在上述大规模视网膜图像数据集上进行SSL预训练,从而学习到视网膜特有的上下文信息。这种结合自然图像通用性与医学图像领域特异性的策略,是RETFound设计的关键。

  • 第二阶段:下游任务适配与评估
    1. 对比模型设置:为全面评估RETFound,研究设置了多个对比模型,包括:基于ImageNet-21K(1400万张有标签自然图像)监督学习预训练的模型、仅在ImageNet-1K上SSL预训练的模型,以及仅使用视网膜图像从零开始SSL预训练的模型。所有对比模型在下游任务微调时使用相同的架构和流程,以确保公平比较。
    2. 下游任务与数据集:研究将RETFound适配到三大类共十余个疾病检测任务中进行验证:
      • 眼部疾病诊断:使用多个公开数据集,评估模型在糖尿病视网膜病变(使用Kaggle APTOS-2019、IDRiD、Messidor-2数据集)、青光眼(使用Papila、Glaucoma Fundus数据集)以及多类别眼部疾病(使用JSIEC、Retina、OCTID数据集)分类上的性能。这些数据集来自不同国家、使用不同设备,用于测试模型内部性能和跨数据集泛化能力。
      • 眼部疾病预后:利用Moorfields AlzEye研究队列,预测患有年龄相关性黄斑变性(AMD)的患者,其“对侧眼”在1年内转变为新生血管性(湿性)AMD的风险。
      • 系统性疾病预测(Oculomics):利用AlzEye队列(内部评估)和UK Biobank队列(外部评估),预测个体未来3年内发生缺血性卒中、心肌梗塞、心力衰竭(心血管疾病)以及帕金森病(神经退行性疾病)的风险。这是一个极具挑战性的“眼组学”任务,旨在探索视网膜影像作为全身健康窗口的潜力。
    3. 微调与评估流程:对于每个下游任务,仅使用RETFound的编码器部分,在其后添加一个多层感知机分类头。然后使用特定任务的、相对少量的有标签数据对该模型进行端到端的微调。模型性能通过受试者工作特征曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPR)等指标进行评估。研究进行了内部评估(在任务数据集的预留测试集上)和外部评估(在完全独立的数据集上),以全面检验泛化能力。
    4. 附加分析实验:研究还进行了一系列深入分析,包括:a) 标签效率分析:探究达到相同性能水平所需的有标签训练数据量;b) 不同SSL策略比较:在RETFound框架内,将掩码自编码器替换为SimCLR、SwAV、DINO、MoCo-v3等对比式SSL方法,比较其性能;c) 模型可解释性分析:使用Layer-wise Relevance Propagation等方法可视化模型决策所依据的图像区域;d) 年龄混杂因素控制实验:分析模型在预测与年龄相关的系统性疾病时,区分疾病效应与年龄效应的能力。

三、 主要研究结果

  1. 在眼部疾病诊断与预后任务中表现卓越:在所有评估的公开数据集上,RETFound在大多数任务中均取得了最佳性能,且通常显著优于基于ImageNet监督学习的强大基线模型。例如,在糖尿病视网膜病变分类任务中,RETFound在APTOS-2019、IDRiD和Messidor-2数据集上的AUROC分别达到0.943、0.822和0.884(p<0.001)。在跨数据集外部评估中,RETFound同样表现最优,证明了其强大的泛化能力。在1年内对侧眼转湿性AMD的预后预测任务中,RETFound使用CFP和OCT的AUROC分别达到0.862和0.799,显著优于其他模型。

  2. 在系统性疾病风险预测任务上取得显著提升:尽管预测未来3年发生复杂系统性疾病是极具挑战的任务,模型整体绝对性能有待提高,但RETFound在所有内部评估任务中均实现了显著提升。例如,使用CFP预测心肌梗塞的AUROC达到0.737,显著优于其他模型(p<0.001)。混淆矩阵显示,RETFound具有最高的敏感性和特异性,意味着能更准确地识别高风险个体。在UK Biobank的外部评估中,RETFound在多数任务上也保持了最佳或最具竞争力的表现,表明其学到的表征在不同人群和设备间具有鲁棒性。

  3. 具备优异的标签效率与适应效率:RETFound展现出极高的标签效率。例如,在心力衰竭预测任务中,仅使用10%的标签数据,RETFound的性能即可超越使用100%数据训练的其他对比模型。这极大减轻了专家标注的负担。同时,RETFound在下游任务微调时收敛更快,例如在心肌梗塞预测任务中可节省约80%的训练时间,降低了计算成本。

  4. 掩码自编码器策略效果最佳:在比较不同SSL策略时,基于掩码自编码器(生成式)的RETFound在大多数疾病检测任务中显著优于基于SimCLR、SwAV等对比式SSL方法的变体。这表明,通过图像重建任务,模型更好地学习了视网膜特有的解剖结构(如视神经、视网膜神经纤维层)上下文信息,这些信息对疾病检测至关重要。

  5. 模型可解释性揭示其学习机制:可视化分析表明,RETFound的前置任务使其能够准确重建被掩码的关键解剖结构(如视盘、大血管)和病变区域。在下游任务的热力图分析中,模型用于诊断眼部疾病的决策依据是明确的病理特征(如硬性渗出、出血);而在预测系统性疾病时,模型则关注于与这些疾病相关的解剖结构区域(如视神经、血管几何形态、神经纤维层等),这与“眼组学”的已知知识相符,增加了模型的可信度。

  6. 对年龄分布偏移具有鲁棒性:在控制年龄混杂因素的实验中,当病例组与对照组的年龄差异缩小时,对比模型的性能下降明显,而RETFound的性能保持相对稳定。这表明RETFound更善于捕捉与疾病相关的解剖结构变化,而非仅仅依赖年龄这一强混杂因素进行预测。

四、 研究结论与价值

本研究成功构建并验证了首个面向视网膜图像的通用基础模型RETFound。结论表明,通过在大规模无标签视网膜图像上进行自监督学习(特别是采用分阶段的掩码自编码器策略),可以获得高度通用且强大的特征表示。RETFound能够被高效、灵活地适配到一系列多样化的下游临床任务中,在眼部疾病诊断、预后以及系统性疾病风险预测上,均实现了持续且显著的性能提升、优异的泛化能力和极高的标签效率。

该研究的科学价值在于:1)为医学AI,特别是医学基础模型的研究提供了重要范例,证明了结合通用视觉预训练与领域特异性SSL的有效性;2)深化了对视网膜图像中蕴含的全身健康信息的理解,推动了“眼组学”领域的发展;3)通过详细的对比实验和可解释性分析,增进了对SSL在医学影像中学习机制的认识。

其应用价值巨大:1)降低AI应用门槛:RETFound极大地减轻了对昂贵专家标注数据的依赖,使更多资源有限的机构能够开发高性能AI模型。2)提升模型性能与可靠性:作为高性能的起点,RETFound可提升各种眼科及跨学科AI应用的基准水平,其良好的校准性也意味着预测结果更可靠。3)加速临床转化:通过公开模型,研究团队旨在促进全球研究者利用RETFound作为基础,开发适用于本地人群和特定需求的AI工具,从而加速医学AI向广泛临床应用的转化。

五、 研究亮点

  1. 首个全面的视网膜基础模型:RETFound是首个被系统验证能够泛化至眼部疾病诊断、预后以及多种心血管、神经系统疾病风险预测的视网膜影像基础模型。
  2. 创新的两阶段SSL预训练策略:结合自然图像通用预训练与视网膜图像领域自适应预训练,充分发挥了两种数据源的优势。
  3. 严格的系统性评估:在涵盖诊断、预后、预测的十余个任务上,进行了内部与外部、跨人群、跨设备的全面评估,结论坚实可靠。
  4. 卓越的标签效率与实用价值:显著降低对标注数据量的需求,解决了医学AI开发的核心痛点,具有极高的实际应用潜力。
  5. 深入的可解释性与机制探索:不仅报告性能,还通过可视化分析了模型在SSL阶段学到的内容以及在下游任务中的决策依据,增强了模型的可信度和科学理解。

六、 其他有价值的内容

研究也指出了当前工作的局限性与未来方向:1)预训练数据主要来自英国人群,未来需纳入全球更多样化数据以提升普适性。2)本研究分别评估了CFP和OCT模型,未探索多模态信息融合,这可能是未来性能提升的途径。3)未在SSL中融入人口统计学、视力等临床协变量信息。未来将通过扩大数据规模、探索多模态融合及动态交互等方式持续增强RETFound。此外,作者强调了“人-AI”协同对于实现医疗AI应用真正多样化至关重要。研究团队已公开RETFound模型代码,旨在促进学界共同推进这一领域。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com