分享自:

LancetDH优秀文章用于预测抗VEGF治疗黄斑变性视觉预后

期刊:The Lancet Digital HealthDOI:10.1016/j.landig.2025.100971

关于开发与验证深度学习模型预测新生血管性年龄相关性黄斑变性抗VEGF治疗视觉和解剖预后的前瞻性、全国性、多中心研究的学术报告

本研究由赵欣宇、温洋、杨祖贻等作为共同第一作者,陈有信与盛斌作为共同通讯作者,联合来自中国医学科学院北京协和医院眼科、深圳大学电子与信息工程学院、上海交通大学计算机科学与技术学院等全国18家三级转诊医院的研究团队共同完成。研究成果以“Development and validation of a deep learning model to predict visual and anatomical prognosis of anti-VEGF therapy for neovascular age-related macular degeneration (KONGMING study): a prospective, nationwide, multicentre study”为题,在线发表于《柳叶刀数字健康》(The Lancet Digital Health)期刊,预计于2026年正式出版。

一、 学术背景

本研究属于医学人工智能与眼科交叉领域,具体聚焦于利用深度学习技术解决眼底疾病精准医疗的临床挑战。新生血管性年龄相关性黄斑变性(neovascular age-related macular degeneration, nAMD)是导致50岁以上人群不可逆视力丧失的主要原因。抗血管内皮生长因子(anti-vascular endothelial growth factor, anti-VEGF)药物的出现革新了nAMD的治疗,但其治疗方案(如经典的“3+按需治疗”[3+pro re nata, 3+PRN]方案)存在显著的经济负担和治疗反应不确定性。患者可能因单次注射后反应不佳而对长期治疗失去信心,也可能因期望过高而产生医患矛盾。因此,在治疗开始前,能够可靠且准确地预测患者的功能性(视力)和解剖学(视网膜结构)预后,对于制定个体化治疗方案、提高治疗依从性、避免不必要的干预至关重要。

尽管已有研究尝试利用深度学习基于光学相干断层扫描(optical coherence tomography, OCT)图像预测抗VEGF治疗反应,但存在以下局限性:1)大多仅关注单一预测任务(如仅预测OCT图像或仅预测视力);2)预测时间点局限于单次注射后;3)模型多基于单中心、小样本数据集开发,存在过拟合风险,外部验证和普适性不足;4)模型架构主要依赖卷积神经网络(convolutional neural network, CNN),在捕捉图像长程依赖关系上存在局限;5)通过热图等技术可视化的特征与视力预后的具体关联尚不明确。

针对以上问题,本研究旨在建立一个基于全国多中心、大样本前瞻性数据集的深度学习模型——“孔明模型”(KONGMING model),以实现对nAMD患者接受抗VEGF治疗后,在三个关键时间点的视觉和解剖学预后的双预测。这三个时间点包括:1)单次注射后(治疗后4-6周);2)三次负荷注射后(首次连续三次注射后4-6周);3)启动3+PRN方案治疗一年后。研究目标是为临床医生提供一个非侵入性、可靠且准确的方法,辅助制定个性化治疗决策。

二、 详细研究流程

本研究是一项前瞻性、非干预性、全国多中心研究,流程严谨,可分为数据收集与处理、模型开发与训练、模型验证与评估、模型可解释性分析四个主要阶段。

第一阶段:数据收集与处理 研究分两阶段收集数据。第一阶段(2020年7月1日至2023年12月31日)从全国12个省份的14家医院收集数据,用于模型训练、验证和内部测试。第二阶段(2023年1月1日至2024年5月1日)从另外4个省份的4家医院收集数据,用于外部测试。 研究对象:纳入年龄50-85岁、初治nAMD患者,均接受康柏西普(0.5 mg/0.05 ml)玻璃体腔内注射,并遵循3+PRN治疗方案。所有参与者均需在基线、随访时及每次注射后4-6周接受全面的眼科检查,包括最佳矫正视力(best-corrected visual acuity, BCVA)评估和OCT成像(采用Topcon DRI OCT Triton的12线9mm放射状黄斑扫描模式)。排除标准包括可能混淆诊断或预后的其他眼病、图像质量差(如严重白内障或玻璃体出血影响)、有激光光凝或眼内注射其他药物史,以及通过吲哚菁绿血管造影或OCT确诊的息肉状脉络膜血管病变。 数据处理:最终,内部数据集纳入了1226名患者的29,772张OCT图像,外部数据集纳入了172名患者的3,308张OCT图像。所有图像经过严格质量控制(自动化质量评分>60、预训练模型排除伪影、两位视网膜专家手动审核,Kappa一致性为0.89)。根据BCVA变化(提高、稳定、恶化,以Snellen视力表一行变化为界),为配对的OCT图像(治疗前与治疗后)打上标签。数据被分为单次注射后、三次负荷注射后、1年后三个数据集。内部数据按图像级别以7:2:1的比例随机划分为训练集、验证集和内部测试集,并确保同一患者的数据在同一数据集中。外部数据全部用于测试。 图像预处理:使用FMRIB线性图像配准工具对治疗前后图像进行自动对齐。所有图像被调整为256×256像素,并使用PyTorch的torchvision库进行随机仿射变换(旋转±1°,平移±2%,缩放0.98-1.02倍)以增强数据鲁棒性。

第二阶段:模型开发与训练 本研究开发了一个名为“孔明模型”的结构-注意力引导的治疗反应预测模型。其核心是一个基于病灶感知、Transformer架构的多任务模型。 模型架构:模型由三个紧密耦合的模块组成: 1. 治疗后图像生成模块:基于生成对抗网络(generative adversarial network, GAN)框架,输入治疗前OCT图像,生成预测的治疗后OCT图像。其创新在于引入了病灶结构感知网络(lesion structure-aware network, LSAN)。LSAN通过一个基于U-Net的变形场生成网络,学习预测图像与真实图像之间的变形场,并应用该变形场对生成图像进行校准,从而更好地捕捉治疗引起的病灶区结构变化,提高生成图像的准确性。损失函数包括校正损失和对抗损失。 2. BCVA变化分类模块:预测治疗后BCVA变化类别(提高、稳定、恶化)。该模块与图像生成模块共享编码器A(Encoder A)提取的特征,但使用独立的分类器解码器。编码器A采用Transformer块,利用自注意力机制捕捉图像中的全局依赖关系,同时通过深度卷积保持局部细节信息。 3. BCVA值回归模块:预测具体的治疗后BCVA数值(LogMAR值)。该模块使用一个改进的特征提取器——编码器B(Encoder B)。编码器B的核心创新是采用了Parformer块替代标准Transformer块。Parformer采用并行令牌混合器编码器,通过并行通路同时处理图像的局部和全局关系,从而更精确地建模空间依赖关系,并提高了计算效率,特别适合BCVA值的精确预测。回归解码器则输出连续的BCVA值。

训练过程:模型采用监督学习,进行多任务联合训练。输入治疗前OCT图像,通过编码器A提取特征,分别送入生成器解码器(生成图像)和分类器解码器(预测BCVA变化类别);同时,通过编码器B提取特征,送入回归解码器(预测BCVA值)。模型利用治疗后真实图像、BCVA变化标签和BCVA值标签,通过结合图像校正损失、对抗损失、分类交叉熵损失和回归均方误差损失等多种损失函数,进行反向传播迭代优化。模型共训练150轮。

第三阶段:模型验证与评估 模型性能在内部测试集和外部测试集上进行了全面评估,并与基于CNN的模型(RegGAN和ResNet50)以及不同经验水平的眼科医生进行了比较。 1. BCVA变化预测评估: * 指标:使用受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUC)、准确率、敏感性、特异性、精确率、平均精确率(average precision)。 * 结果: * 单次注射后预测:内部测试AUC为0.948 (95% CI 0.942–0.954),外部测试AUC为0.941 (0.934–0.948)。 * 三次负荷注射后预测:内部测试AUC为0.972 (0.957–0.982),外部测试AUC为0.964 (0.951–0.975)。 * 1年后预测:内部测试AUC为0.989 (0.979–0.994),外部测试AUC为0.979 (0.960–0.989)。 * 人机对比:模型在50张外部测试集图像上的预测性能,在准确率、敏感性、特异性和F1分数上均显著优于所有参与评估的眼科医生(包括3名经验>20年的专家、6名主治医师和7名住院医师),所有p值均<0.0001。 * 与CNN模型对比:孔明模型在所有时间点的内部和外部测试中,其性能均优于RegGAN和ResNet50模型。

  1. BCVA值预测评估

    • 指标:平均绝对误差(mean absolute error, MAE)和决定系数(coefficient of determination, R²)。
    • 结果
      • 三个预测时间点的MAE在内部测试中范围为0.048至0.058,在外部测试中为0.058。
      • R²在内部测试中范围为0.8034至0.9012,在外部测试中范围为0.7140至0.8217。
    • 模型预测的BCVA值与真实值高度相关,且性能优于CNN基线模型。
  2. 治疗后OCT图像预测评估

    • 指标:结构相似性指数(structural similarity index measure, SSIM),范围0-1,1为完全相似。
    • 结果:模型预测图像与真实图像的SSIM值在0.578至0.646之间,表明预测图像与真实图像具有高度相似性,且性能优于RegGAN模型。
  3. 扫描层面评估:为避免同一扫描的12张OCT图像相似性带来的评估偏差,研究还采用了自助抽样法在扫描层面进行评估,结果与图像层面评估结果相似,证明了模型的稳健性。

第四阶段:模型可解释性分析 为了理解模型的决策依据,研究采用了热图可视化和SHAP(Shapley Additive Explanations)值分析。 * 热图:直观显示了模型在OCT图像上最关注的区域,这些区域与预测结果高度相关。 * SHAP分析:量化了不同图像特征对预测结果(如视力改善或恶化)的贡献方向和强度。例如,分析显示: * 传统的脉络膜新生血管及相关病变(如陈旧性瘢痕、视网膜内液)与不良视力预后有更强的关联。 * 视网膜下液(subretinal fluid)则与积极的视力预后有更强的关联。 * 模型能够准确定位一些容易被忽视但与预后相关的特征,如色素上皮脱离(pigment epithelial detachment, PED)、视网膜前膜,以及一些难以与息肉状脉络膜血管病变区分的息肉样纤维血管性PED和局灶性脉络膜凹陷,并将这些特征识别为不良预后的迹象。

三、 主要结果及其逻辑关联

本研究的结果环环相扣,系统地验证了孔明模型的有效性和优越性。 1. 数据基础扎实:通过全国多中心前瞻性收集的大样本、高质量OCT图像和临床数据,为模型开发提供了可靠基础。严格的质量控制和数据划分确保了训练和评估的公正性。 2. 模型架构创新有效:引入的Transformer架构、LSAN和Parformer块等创新设计,被证明是有效的。模型在三个核心预测任务(BCVA变化分类、BCVA值回归、OCT图像生成)上均取得了优异的性能指标(高AUC、低MAE、高R²、良好SSIM)。这直接证明了新架构在捕捉OCT图像全局上下文、模拟结构变形和精确回归视力值方面的优势。 3. 泛化能力强:模型不仅在内部测试集上表现优异,在独立的外部测试集上同样保持了高性能,这有力地证明了其良好的泛化能力和临床适用潜力,克服了以往单中心研究过拟合的局限。 4. 临床实用性突出:人机对比实验显示,模型预测BCVA变化的性能显著超越了不同年资的临床医生。这表明该模型有潜力成为辅助临床决策的强大工具,尤其是在经验不足的医生中。 5. 可解释性提供洞见:热图和SHAP分析不仅增加了模型的透明度,使其决策过程“白盒化”,更重要的是,它们揭示了OCT图像中与预后相关的关键解剖学特征(如视网膜下液与良好预后相关,某些类型的PED与不良预后相关),这为理解nAMD的病理生理和预后因素提供了新的数据驱动视角。

这些结果层层递进,从数据准备到模型构建,再到性能验证和机理阐释,共同支撑了研究的最终结论。

四、 研究结论与价值

本研究成功开发并验证了“孔明模型”,这是一个能够基于治疗前OCT图像,准确预测nAMD患者接受抗VEGF治疗后,在单次注射后、三次负荷注射后以及治疗一年后视觉和解剖学预后的深度学习模型。

科学价值: 1. 方法学创新:首次将基于Transformer的多任务学习架构应用于nAMD预后预测,并结合LSAN和Parformer等创新模块,为医学图像分析,特别是时序预测和跨模态(图像-功能)关联预测,提供了新的技术框架。 2. 临床预测范式突破:首次实现了对nAMD抗VEGF治疗在多个关键时间点的“视觉-解剖”双预后预测,更符合临床实际决策需求。 3. 病理机制洞察:通过可解释性AI技术,以数据驱动的方式验证并发现了与nAMD抗VEGF治疗预后相关的OCT影像学生物标志物,加深了对疾病转归机制的理解。

应用价值: 1. 辅助临床决策:为眼科医生提供了一种非侵入性、客观、量化的预后预测工具,有助于在治疗早期识别潜在应答不佳的患者,从而更早地调整治疗方案(如考虑换药或联合治疗),或加强对潜在应答良好患者的随访管理,优化医疗资源分配。 2. 改善医患沟通与治疗依从性:可视化的预测结果(如生成的OCT图像、预测的视力变化趋势)可以帮助医生向患者更直观地解释病情和预期疗效,管理患者期望,从而提高治疗信心和依从性。 3. 推动个性化医疗:该模型为实现nAMD的精准、个性化治疗提供了强有力的技术支撑,是迈向“治疗前预测”时代的重要一步。

五、 研究亮点

  1. 前瞻性、全国多中心、大样本设计:研究设计严谨,数据来源广泛,外部验证充分,结果可信度高,临床转化潜力大。
  2. 创新的多任务Transformer架构:突破了传统CNN模型的局限,有效整合了图像生成、分类和回归任务,实现了对结构和功能预后的协同预测。
  3. 覆盖全治疗周期的多时间点预测:首次实现了从短期(单次注射后)到中长期(治疗一年后)的连续预后预测,提供了更全面的病程管理视角。
  4. 卓越的性能与超越人类专家的表现:模型在各项指标上均达到优秀水平,并在人机对比中显著优于眼科医生,展示了AI辅助诊断的切实优势。
  5. 深入的可解释性分析:不仅追求预测精度,还通过热图和SHAP分析深入探究模型决策依据,将AI的“黑箱”转化为可理解的临床洞察,增强了模型的可靠性和接受度。
  6. 严格的模型对比:与主流CNN模型(RegGAN, ResNet50)的系统性对比,凸显了本模型架构的先进性。

六、 其他有价值的内容

研究遵循了TRIPOD+AI报告规范,确保了方法学的透明性和可重复性。此外,研究详细描述了数据预处理中的图像配准和增强步骤,以及评估中为克服同一扫描多图像相关性偏差而采用的扫描层面自助抽样法,这些细节对于其他研究者复现或改进类似工作具有重要参考价值。研究也坦诚地指出了局限性,例如排除了明确诊断的息肉状脉络膜血管病变,但模型仍能识别其中一些混淆病例的特征,这暗示了模型具有发现潜在亚型或表型的潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com