本次介绍的是一项发表于《Nature》期刊2023年10月5日第622卷的原创性研究。该研究由英国伦敦大学学院、Moorfields眼科医院等机构的Yukun Zhou, Pearse A. Keane等学者及其合作团队主导完成。论文标题为“A foundation model for generalizable disease detection from retinal images”(一个用于视网膜图像通用疾病检测的基础模型)。以下将从七个方面对该研究进行详细介绍。
一、 研究背景与目的
该研究属于医学人工智能领域,具体聚焦于眼科影像分析与疾病预测。尽管基于深度学习的医学AI在疾病诊断,特别是视网膜疾病识别方面已取得显著进展,甚至达到或超越专家水平,但其发展面临两大核心瓶颈:首先,模型开发极度依赖大量由专家标注的高质量标签数据,这给医疗专家带来了沉重的工作负担,且专家资源的稀缺性使得海量医疗数据无法得到有效利用;其次,现有模型通常是针对特定任务(任务特定性)开发的,其泛化能力有限,难以直接应用于其他临床场景。
为应对这些挑战,自监督学习(Self-Supervised Learning, SSL)技术成为研究热点。SSL通过从数据本身而非外部标签中获取监督信号,利用“前置任务”(Pretext Task)在海量无标签数据上学习通用的特征表示。这种预训练模型(或称基础模型, Foundation Model)可以在拥有少量标签时,被高效地微调以适应各种下游任务,展现出强大的泛化能力和标签效率(Label Efficiency)。然而,在视网膜成像领域,此前的研究多集中于单一疾病的检测,缺乏一个能够在多种复杂任务上(包括眼部疾病诊断、预后以及全身性系统疾病预测)均表现出优异泛化能力的单一SSL基础模型。
因此,本研究旨在构建并验证一个名为“RETFound”的视网膜图像基础模型。具体目标包括:1)利用大规模无标签视网膜图像,通过SSL训练一个通用表征模型;2)将该模型高效地适配到一系列具有挑战性的下游疾病检测任务中,包括威胁视力的眼部疾病诊断与预后,以及心力衰竭、心肌梗塞等复杂系统疾病的发病风险预测;3)系统性评估RETFound在性能、泛化能力和标签效率方面的优势,并与现有先进方法进行对比;4)探索模型的可解释性,理解其学习机制;5)公开模型,以促进广泛的临床AI应用与研究。
二、 详细研究流程
本研究工作流程可分为两大阶段:基础模型构建与下游任务适配评估。 * 第一阶段:RETFound基础模型的构建 1. 数据收集与处理:研究团队构建了一个大规模的无标签视网膜图像数据集,用于SSL预训练。数据来源主要包括Moorfields糖尿病图像数据集和公共数据集。总计使用了904,170张彩色眼底照相(Colour Fundus Photography, CFP)和736,442张光学相干断层扫描(Optical Coherence Tomography, OCT)图像。所有图像经过预处理,如使用AutoMorph工具去除背景、保留视网膜区域,并统一调整尺寸。 2. 自监督预训练方法:研究采用了一种先进的生成式SSL方法——掩码自编码器。其核心思想是:将输入图像的大部分(CFP掩码率75%,OCT掩码率85%)随机“掩码”掉(即置为零),然后让模型(包含编码器和解码器)根据剩余的可见部分,学习重建完整的原始图像。这一前置任务迫使模型理解图像的整体结构、解剖上下文和病理特征,从而学习到具有高度泛化能力的表征。模型架构基于Vision Transformer,编码器为ViT-Large,解码器为ViT-Small。训练使用了8块NVIDIA Tesla A100 GPU,耗时约2周。 3. 预训练策略创新:RETFound并非从零开始训练。它采用了一种分阶段的预训练策略:首先在自然图像数据集ImageNet-1K(约140万张)上使用SSL进行预训练,获得通用视觉特征;然后将此作为起点,再在上述大规模视网膜图像数据集上进行SSL预训练,从而学习到视网膜特有的上下文信息。这种结合自然图像通用性与医学图像领域特异性的策略,是RETFound设计的关键。
三、 主要研究结果
在眼部疾病诊断与预后任务中表现卓越:在所有评估的公开数据集上,RETFound在大多数任务中均取得了最佳性能,且通常显著优于基于ImageNet监督学习的强大基线模型。例如,在糖尿病视网膜病变分类任务中,RETFound在APTOS-2019、IDRiD和Messidor-2数据集上的AUROC分别达到0.943、0.822和0.884(p<0.001)。在跨数据集外部评估中,RETFound同样表现最优,证明了其强大的泛化能力。在1年内对侧眼转湿性AMD的预后预测任务中,RETFound使用CFP和OCT的AUROC分别达到0.862和0.799,显著优于其他模型。
在系统性疾病风险预测任务上取得显著提升:尽管预测未来3年发生复杂系统性疾病是极具挑战的任务,模型整体绝对性能有待提高,但RETFound在所有内部评估任务中均实现了显著提升。例如,使用CFP预测心肌梗塞的AUROC达到0.737,显著优于其他模型(p<0.001)。混淆矩阵显示,RETFound具有最高的敏感性和特异性,意味着能更准确地识别高风险个体。在UK Biobank的外部评估中,RETFound在多数任务上也保持了最佳或最具竞争力的表现,表明其学到的表征在不同人群和设备间具有鲁棒性。
具备优异的标签效率与适应效率:RETFound展现出极高的标签效率。例如,在心力衰竭预测任务中,仅使用10%的标签数据,RETFound的性能即可超越使用100%数据训练的其他对比模型。这极大减轻了专家标注的负担。同时,RETFound在下游任务微调时收敛更快,例如在心肌梗塞预测任务中可节省约80%的训练时间,降低了计算成本。
掩码自编码器策略效果最佳:在比较不同SSL策略时,基于掩码自编码器(生成式)的RETFound在大多数疾病检测任务中显著优于基于SimCLR、SwAV等对比式SSL方法的变体。这表明,通过图像重建任务,模型更好地学习了视网膜特有的解剖结构(如视神经、视网膜神经纤维层)上下文信息,这些信息对疾病检测至关重要。
模型可解释性揭示其学习机制:可视化分析表明,RETFound的前置任务使其能够准确重建被掩码的关键解剖结构(如视盘、大血管)和病变区域。在下游任务的热力图分析中,模型用于诊断眼部疾病的决策依据是明确的病理特征(如硬性渗出、出血);而在预测系统性疾病时,模型则关注于与这些疾病相关的解剖结构区域(如视神经、血管几何形态、神经纤维层等),这与“眼组学”的已知知识相符,增加了模型的可信度。
对年龄分布偏移具有鲁棒性:在控制年龄混杂因素的实验中,当病例组与对照组的年龄差异缩小时,对比模型的性能下降明显,而RETFound的性能保持相对稳定。这表明RETFound更善于捕捉与疾病相关的解剖结构变化,而非仅仅依赖年龄这一强混杂因素进行预测。
四、 研究结论与价值
本研究成功构建并验证了首个面向视网膜图像的通用基础模型RETFound。结论表明,通过在大规模无标签视网膜图像上进行自监督学习(特别是采用分阶段的掩码自编码器策略),可以获得高度通用且强大的特征表示。RETFound能够被高效、灵活地适配到一系列多样化的下游临床任务中,在眼部疾病诊断、预后以及系统性疾病风险预测上,均实现了持续且显著的性能提升、优异的泛化能力和极高的标签效率。
该研究的科学价值在于:1)为医学AI,特别是医学基础模型的研究提供了重要范例,证明了结合通用视觉预训练与领域特异性SSL的有效性;2)深化了对视网膜图像中蕴含的全身健康信息的理解,推动了“眼组学”领域的发展;3)通过详细的对比实验和可解释性分析,增进了对SSL在医学影像中学习机制的认识。
其应用价值巨大:1)降低AI应用门槛:RETFound极大地减轻了对昂贵专家标注数据的依赖,使更多资源有限的机构能够开发高性能AI模型。2)提升模型性能与可靠性:作为高性能的起点,RETFound可提升各种眼科及跨学科AI应用的基准水平,其良好的校准性也意味着预测结果更可靠。3)加速临床转化:通过公开模型,研究团队旨在促进全球研究者利用RETFound作为基础,开发适用于本地人群和特定需求的AI工具,从而加速医学AI向广泛临床应用的转化。
五、 研究亮点
六、 其他有价值的内容
研究也指出了当前工作的局限性与未来方向:1)预训练数据主要来自英国人群,未来需纳入全球更多样化数据以提升普适性。2)本研究分别评估了CFP和OCT模型,未探索多模态信息融合,这可能是未来性能提升的途径。3)未在SSL中融入人口统计学、视力等临床协变量信息。未来将通过扩大数据规模、探索多模态融合及动态交互等方式持续增强RETFound。此外,作者强调了“人-AI”协同对于实现医疗AI应用真正多样化至关重要。研究团队已公开RETFound模型代码,旨在促进学界共同推进这一领域。