基于视网膜图像通用疾病检测的基础模型：RETFound

分享自：
基于视网膜图像通用疾病检测的基础模型：RETFound

教育学
信息科学
期刊:natureDOI:10.1038/s41586-023-06555-x
【点击此处】阅读全文、收藏及针对性提问
本次介绍的是一项发表于《Nature》期刊2023年10月5日第622卷的原创性研究。该研究由英国伦敦大学学院、Moorfields眼科医院等机构的Yukun Zhou, Pearse A. Keane等学者及其合作团队主导完成。论文标题为“A foundation model for generalizable disease detection from retinal images”（一个用于视网膜图像通用疾病检测的基础模型）。以下将从七个方面对该研究进行详细介绍。
一、 研究背景与目的
该研究属于医学人工智能领域，具体聚焦于眼科影像分析与疾病预测。尽管基于深度学习的医学AI在疾病诊断，特别是视网膜疾病识别方面已取得显著进展，甚至达到或超越专家水平，但其发展面临两大核心瓶颈：首先，模型开发极度依赖大量由专家标注的高质量标签数据，这给医疗专家带来了沉重的工作负担，且专家资源的稀缺性使得海量医疗数据无法得到有效利用；其次，现有模型通常是针对特定任务（任务特定性）开发的，其泛化能力有限，难以直接应用于其他临床场景。
为应对这些挑战，自监督学习（Self-Supervised Learning， SSL）技术成为研究热点。SSL通过从数据本身而非外部标签中获取监督信号，利用“前置任务”（Pretext Task）在海量无标签数据上学习通用的特征表示。这种预训练模型（或称基础模型， Foundation Model）可以在拥有少量标签时，被高效地微调以适应各种下游任务，展现出强大的泛化能力和标签效率（Label Efficiency）。然而，在视网膜成像领域，此前的研究多集中于单一疾病的检测，缺乏一个能够在多种复杂任务上（包括眼部疾病诊断、预后以及全身性系统疾病预测）均表现出优异泛化能力的单一SSL基础模型。
因此，本研究旨在构建并验证一个名为“RETFound”的视网膜图像基础模型。具体目标包括：1）利用大规模无标签视网膜图像，通过SSL训练一个通用表征模型；2）将该模型高效地适配到一系列具有挑战性的下游疾病检测任务中，包括威胁视力的眼部疾病诊断与预后，以及心力衰竭、心肌梗塞等复杂系统疾病的发病风险预测；3）系统性评估RETFound在性能、泛化能力和标签效率方面的优势，并与现有先进方法进行对比；4）探索模型的可解释性，理解其学习机制；5）公开模型，以促进广泛的临床AI应用与研究。
二、 详细研究流程
本研究工作流程可分为两大阶段：基础模型构建与下游任务适配评估。 * 第一阶段：RETFound基础模型的构建 1. 数据收集与处理：研究团队构建了一个大规模的无标签视网膜图像数据集，用于SSL预训练。数据来源主要包括Moorfields糖尿病图像数据集和公共数据集。总计使用了904,170张彩色眼底照相（Colour Fundus Photography， CFP）和736,442张光学相干断层扫描（Optical Coherence Tomography， OCT）图像。所有图像经过预处理，如使用AutoMorph工具去除背景、保留视网膜区域，并统一调整尺寸。 2. 自监督预训练方法：研究采用了一种先进的生成式SSL方法——掩码自编码器。其核心思想是：将输入图像的大部分（CFP掩码率75%，OCT掩码率85%）随机“掩码”掉（即置为零），然后让模型（包含编码器和解码器）根据剩余的可见部分，学习重建完整的原始图像。这一前置任务迫使模型理解图像的整体结构、解剖上下文和病理特征，从而学习到具有高度泛化能力的表征。模型架构基于Vision Transformer，编码器为ViT-Large，解码器为ViT-Small。训练使用了8块NVIDIA Tesla A100 GPU，耗时约2周。 3. 预训练策略创新：RETFound并非从零开始训练。它采用了一种分阶段的预训练策略：首先在自然图像数据集ImageNet-1K（约140万张）上使用SSL进行预训练，获得通用视觉特征；然后将此作为起点，再在上述大规模视网膜图像数据集上进行SSL预训练，从而学习到视网膜特有的上下文信息。这种结合自然图像通用性与医学图像领域特异性的策略，是RETFound设计的关键。
第二阶段：下游任务适配与评估 对比模型设置：为全面评估RETFound，研究设置了多个对比模型，包括：基于ImageNet-21K（1400万张有标签自然图像）监督学习预训练的模型、仅在ImageNet-1K上SSL预训练的模型，以及仅使用视网膜图像从零开始SSL预训练的模型。所有对比模型在下游任务微调时使用相同的架构和流程，以确保公平比较。
下游任务与数据集：研究将RETFound适配到三大类共十余个疾病检测任务中进行验证： 眼部疾病诊断：使用多个公开数据集，评估模型在糖尿病视网膜病变（使用Kaggle APTOS-2019、IDRiD、Messidor-2数据集）、青光眼（使用Papila、Glaucoma Fundus数据集）以及多类别眼部疾病（使用JSIEC、Retina、OCTID数据集）分类上的性能。这些数据集来自不同国家、使用不同设备，用于测试模型内部性能和跨数据集泛化能力。
眼部疾病预后：利用Moorfields AlzEye研究队列，预测患有年龄相关性黄斑变性（AMD）的患者，其“对侧眼”在1年内转变为新生血管性（湿性）AMD的风险。
系统性疾病预测（Oculomics）：利用AlzEye队列（内部评估）和UK Biobank队列（外部评估），预测个体未来3年内发生缺血性卒中、心肌梗塞、心力衰竭（心血管疾病）以及帕金森病（神经退行性疾病）的风险。这是一个极具挑战性的“眼组学”任务，旨在探索视网膜影像作为全身健康窗口的潜力。
微调与评估流程：对于每个下游任务，仅使用RETFound的编码器部分，在其后添加一个多层感知机分类头。然后使用特定任务的、相对少量的有标签数据对该模型进行端到端的微调。模型性能通过受试者工作特征曲线下面积（AUROC）和精确率-召回率曲线下面积（AUPR）等指标进行评估。研究进行了内部评估（在任务数据集的预留测试集上）和外部评估（在完全独立的数据集上），以全面检验泛化能力。
附加分析实验：研究还进行了一系列深入分析，包括：a) 标签效率分析：探究达到相同性能水平所需的有标签训练数据量；b) 不同SSL策略比较：在RETFound框架内，将掩码自编码器替换为SimCLR、SwAV、DINO、MoCo-v3等对比式SSL方法，比较其性能；c) 模型可解释性分析：使用Layer-wise Relevance Propagation等方法可视化模型决策所依据的图像区域；d) 年龄混杂因素控制实验：分析模型在预测与年龄相关的系统性疾病时，区分疾病效应与年龄效应的能力。
三、 主要研究结果
在眼部疾病诊断与预后任务中表现卓越：在所有评估的公开数据集上，RETFound在大多数任务中均取得了最佳性能，且通常显著优于基于ImageNet监督学习的强大基线模型。例如，在糖尿病视网膜病变分类任务中，RETFound在APTOS-2019、IDRiD和Messidor-2数据集上的AUROC分别达到0.943、0.822和0.884（p<0.001）。在跨数据集外部评估中，RETFound同样表现最优，证明了其强大的泛化能力。在1年内对侧眼转湿性AMD的预后预测任务中，RETFound使用CFP和OCT的AUROC分别达到0.862和0.799，显著优于其他模型。
在系统性疾病风险预测任务上取得显著提升：尽管预测未来3年发生复杂系统性疾病是极具挑战的任务，模型整体绝对性能有待提高，但RETFound在所有内部评估任务中均实现了显著提升。例如，使用CFP预测心肌梗塞的AUROC达到0.737，显著优于其他模型（p<0.001）。混淆矩阵显示，RETFound具有最高的敏感性和特异性，意味着能更准确地识别高风险个体。在UK Biobank的外部评估中，RETFound在多数任务上也保持了最佳或最具竞争力的表现，表明其学到的表征在不同人群和设备间具有鲁棒性。
具备优异的标签效率与适应效率：RETFound展现出极高的标签效率。例如，在心力衰竭预测任务中，仅使用10%的标签数据，RETFound的性能即可超越使用100%数据训练的其他对比模型。这极大减轻了专家标注的负担。同时，RETFound在下游任务微调时收敛更快，例如在心肌梗塞预测任务中可节省约80%的训练时间，降低了计算成本。
掩码自编码器策略效果最佳：在比较不同SSL策略时，基于掩码自编码器（生成式）的RETFound在大多数疾病检测任务中显著优于基于SimCLR、SwAV等对比式SSL方法的变体。这表明，通过图像重建任务，模型更好地学习了视网膜特有的解剖结构（如视神经、视网膜神经纤维层）上下文信息，这些信息对疾病检测至关重要。
模型可解释性揭示其学习机制：可视化分析表明，RETFound的前置任务使其能够准确重建被掩码的关键解剖结构（如视盘、大血管）和病变区域。在下游任务的热力图分析中，模型用于诊断眼部疾病的决策依据是明确的病理特征（如硬性渗出、出血）；而在预测系统性疾病时，模型则关注于与这些疾病相关的解剖结构区域（如视神经、血管几何形态、神经纤维层等），这与“眼组学”的已知知识相符，增加了模型的可信度。
对年龄分布偏移具有鲁棒性：在控制年龄混杂因素的实验中，当病例组与对照组的年龄差异缩小时，对比模型的性能下降明显，而RETFound的性能保持相对稳定。这表明RETFound更善于捕捉与疾病相关的解剖结构变化，而非仅仅依赖年龄这一强混杂因素进行预测。
四、 研究结论与价值
本研究成功构建并验证了首个面向视网膜图像的通用基础模型RETFound。结论表明，通过在大规模无标签视网膜图像上进行自监督学习（特别是采用分阶段的掩码自编码器策略），可以获得高度通用且强大的特征表示。RETFound能够被高效、灵活地适配到一系列多样化的下游临床任务中，在眼部疾病诊断、预后以及系统性疾病风险预测上，均实现了持续且显著的性能提升、优异的泛化能力和极高的标签效率。
该研究的科学价值在于：1）为医学AI，特别是医学基础模型的研究提供了重要范例，证明了结合通用视觉预训练与领域特异性SSL的有效性；2）深化了对视网膜图像中蕴含的全身健康信息的理解，推动了“眼组学”领域的发展；3）通过详细的对比实验和可解释性分析，增进了对SSL在医学影像中学习机制的认识。
其应用价值巨大：1）降低AI应用门槛：RETFound极大地减轻了对昂贵专家标注数据的依赖，使更多资源有限的机构能够开发高性能AI模型。2）提升模型性能与可靠性：作为高性能的起点，RETFound可提升各种眼科及跨学科AI应用的基准水平，其良好的校准性也意味着预测结果更可靠。3）加速临床转化：通过公开模型，研究团队旨在促进全球研究者利用RETFound作为基础，开发适用于本地人群和特定需求的AI工具，从而加速医学AI向广泛临床应用的转化。
五、 研究亮点
首个全面的视网膜基础模型：RETFound是首个被系统验证能够泛化至眼部疾病诊断、预后以及多种心血管、神经系统疾病风险预测的视网膜影像基础模型。
创新的两阶段SSL预训练策略：结合自然图像通用预训练与视网膜图像领域自适应预训练，充分发挥了两种数据源的优势。
严格的系统性评估：在涵盖诊断、预后、预测的十余个任务上，进行了内部与外部、跨人群、跨设备的全面评估，结论坚实可靠。
卓越的标签效率与实用价值：显著降低对标注数据量的需求，解决了医学AI开发的核心痛点，具有极高的实际应用潜力。
深入的可解释性与机制探索：不仅报告性能，还通过可视化分析了模型在SSL阶段学到的内容以及在下游任务中的决策依据，增强了模型的可信度和科学理解。
六、 其他有价值的内容
研究也指出了当前工作的局限性与未来方向：1）预训练数据主要来自英国人群，未来需纳入全球更多样化数据以提升普适性。2）本研究分别评估了CFP和OCT模型，未探索多模态信息融合，这可能是未来性能提升的途径。3）未在SSL中融入人口统计学、视力等临床协变量信息。未来将通过扩大数据规模、探索多模态融合及动态交互等方式持续增强RETFound。此外，作者强调了“人-AI”协同对于实现医疗AI应用真正多样化至关重要。研究团队已公开RETFound模型代码，旨在促进学界共同推进这一领域。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问