基于“逆监督学习”的广谱头部疾病AI检测系统研究
本报告旨在介绍一项发表在《NEJM AI》期刊(2024年3月28日在线发表)上的原创性研究。该研究由来自清华大学(脑与认知科学研究院、软件学院、自动化系)、中国人民解放军总医院、湖南省脑科医院及广州医科大学附属第一医院等多家机构的科研人员共同完成。主要作者包括何宇伟博士、郭宇辰博士、吕锦浩硕士、马良迪硕士等,通讯作者为楼欣教授、戴琼海教授和徐枫教授。
一、 研究背景与目标
本研究属于医学人工智能(AI)与医学影像分析交叉领域。尽管AI在特定疾病的医学影像识别(如脑出血、COVID-19肺炎)方面已展现出媲美专家的潜力,但现有AI诊断系统存在一个根本性局限:它们通常针对少数几种预先定义的疾病进行训练,难以覆盖临床实践中可能遇到的数百种疾病类型。开发一个能检测“广谱”疾病的系统,需要收集并标注海量涵盖所有目标疾病的数据,这对于罕见病而言成本极高且不现实。这种数据瓶颈严重阻碍了AI系统在真实临床决策(首要任务是“发现所有可能的异常”)中的应用。
为解决这一核心挑战,本研究提出了一种颠覆性的学习范式——逆监督学习。其核心思想是:与其费力收集所有类型的病变数据来训练模型识别“异常”,不如仅利用大量易于获取的“无病变”健康图像,训练一个模型深入理解“健康”的概念。任何偏离该健康概念的图像,即可被判定为存在异常。这种方法绕过了对病变数据及其标注的依赖,为实现广谱疾病检测提供了全新路径。
本研究的具体目标是:1)提出并验证逆监督学习算法的有效性;2)开发一个仅使用健康头部CT(Computed Tomography,计算机断层扫描)图像训练、却能检测多达百余种头部疾病的AI系统;3)评估该系统在回顾性、前瞻性及跨中心数据集上的性能;4)探索该算法在非头部、非CT影像(如肺部CT、视网膜OCT)上的泛化能力;5)开发具备可视化功能的临床辅助诊断软件,提升系统的可解释性与实用性。
二、 研究流程与方法
研究流程主要分为数据准备、模型构建、系统评估与泛化验证四个部分。
1. 数据准备 研究数据主要来源于中国人民解放军总医院(PLAGH)。首先,从图像归档与通信系统(PACS)中检索了2012年3月至2019年7月间的95万余次头部CT扫描。经过一系列筛选(排除重建图像、非轴位扫描、非头部扫描、非平扫等),得到62,239次有效扫描。利用自然语言处理(NLP)算法解析临床报告,并结合放射科医生确认,最终确定了127种待检测的疾病类型。 * 训练集:通过匹配报告中的固定描述(“未见异常”),高效获取了21,429次无病变的头部CT扫描。这是逆监督学习所需的唯一数据。 * 回顾性测试集:从同期数据中,通过关键词筛选和放射科医生复核,构建了包含8,794次病变扫描(涵盖127种疾病)和1,173次健康扫描的测试集。 * 前瞻性测试集:收集PLAGH在2019年7月至2021年8月的新数据,以相同方式构建包含3,054次扫描(116种疾病)的测试集,用于评估系统在“未来”数据上的表现。 * 跨中心测试集:收集湖南省脑科医院2018年4月至2019年5月的数据,构建包含554次扫描(46种疾病)的独立测试集,用于评估系统在不同医疗机构间的泛化能力。
2. 模型构建:逆监督学习系统 系统核心由两个网络构成:去病变网络(Dedisorder Network, DeDN)和病变识别网络(Disorder Recognition Network, DRN)。工作流程如下: * 输入与预处理:将CT切片根据放射科医生常用的窗宽(Window Width, WW)和窗位(Window Level, WL)设置,转换为三通道8位图像。 * 去病变图像生成(DeDN):这是实现“逆监督”的关键。DeDN是一个基于图像修复(Image Inpainting)技术的编码器-解码器网络。对于输入的图像,系统将其划分为k×k的网格,依次对每个网格区域进行掩膜(遮盖),然后将掩膜后的图像以及从原图提取的边缘图(用于保留结构信息)输入DeDN。由于DeDN仅使用健康图像训练,它学会了根据周围健康组织的上下文,来“想象”并填充被遮盖的区域,生成一个“去病变”的图像。如果原图是健康的,重建图像应与原图高度相似;如果原图包含病变,DeDN会尝试用健康组织填充病变区域,导致生成的去病变图像与原图产生显著差异。 * 差异图计算:将原始图像与DeDN生成的去病变图像相减,得到差异图。差异越大,存在病变的可能性越高。 * 病变概率预测(DRN):直接对差异图进行像素求和虽然简单,但会受重建噪声干扰。因此,研究引入了DRN。DRN以差异图为输入,其训练目标是:对于健康图像及其经过几何变换(旋转、翻转)生成的“负样本”,其嵌入特征应紧密聚集在一个“健康中心”周围;对于通过随机遮挡(Cutout)健康图像生成的“正样本”(模拟局部异常),其嵌入特征应远离该中心。这样,通过计算待测图像差异图的特征嵌入与“健康中心”的距离,即可量化其包含病变的概率。 * 病变定位与可视化:对差异图进行后处理(阈值化、平滑、增强),生成热图,直观显示疑似病变区域。通过计算整个扫描所有切片的平均异常分数,还可分析病变在三维空间中的分布模式。
3. 系统性能评估实验 * 广谱检测能力:在回顾性和前瞻性测试集上,以扫描为单位进行“有病变/无病变”的二分类测试。使用受试者工作特征曲线下面积(AUC)作为主要评价指标。 * 按病灶大小和紧急程度分组分析:将病变按大小(大、中、小)和治疗紧迫性(高、中、低)分组,分别计算AUC,以评估系统对不同挑战性病变的检测效能。 * 泛化性评估:在跨中心测试集上评估系统性能,检验其对于不同扫描协议、设备、人群的适应性。 * 提升专家绩效评估:邀请4名经验不同的放射科医生(5-14年),在未使用和使用本系统辅助两种情况下,分别对300例随机样本(含100例病变)进行诊断,比较其灵敏度(Sensitivity)和特异度(Specificity)的变化。 * 模块贡献度分析:通过消融实验,比较“原始图像直接输入DRN”、“DeDN生成差异图后像素求和评分”以及“完整系统(DeDN+DRN)”三种方案的性能,验证各模块的必要性。
4. 算法泛化性验证 为证明逆监督学习不限于头部CT,研究将其应用于: * 肺部CT疾病检测:使用广州医科大学附属第一医院的3,410次健康肺部CT扫描训练系统,并在包含6种肺部疾病(气胸、肺炎等)的测试集上评估。 * 视网膜OCT疾病检测:使用公开数据集中51,140张正常视网膜光学相干断层扫描(OCT)图像训练系统,在包含脉络膜新生血管、糖尿病性黄斑水肿、玻璃膜疣的测试集上评估。
三、 主要研究结果
1. 广谱头部疾病检测性能卓越 * 在回顾性测试集(127种疾病)上,系统整体AUC达到0.883。其中,对43种疾病的AUC大于0.95,对74种疾病的AUC大于0.90。 * 在前瞻性测试集(116种疾病)上,整体AUC为0.868,性能与回顾性集相当,证明了系统的稳定性。 * 在跨中心测试集(46种疾病)上,整体AUC为0.866,仅比回顾性集内部测试低0.017,显示出优异的跨机构泛化能力。
2. 对各类病灶均保持高检测效能 * 按大小:对大、中、小病灶的AUC分别为0.941, 0.943和0.887。即使对于易漏诊的小病灶,仍保持了可观的识别精度。 * 按紧迫性:对高、中、低紧迫性病灶的AUC分别为0.946, 0.859和0.861。系统能有效识别特征不明显的非紧急病变。
3. 有效提升放射科医生诊断水平 在使用本系统辅助后,四位放射科医生的平均灵敏度提升了0.035,特异度略有提升(+0.006)。医生反馈系统有助于降低漏诊率、减少工作量,其提供的可视化线索对诊断过程帮助很大。
4. 各模块贡献显著 消融实验表明:直接使用原始CT图像输入DRN,AUC仅为0.657;使用DeDN生成差异图后仅进行像素求和评分,AUC提升至0.752;而采用完整的DeDN+DRN方案,AUC进一步提升至0.868。这充分证明了DeDN生成差异图以及DRN进行高级特征判别的关键作用。
5. 逆监督学习算法具有广泛泛化性 * 在肺部CT检测任务中,对6种疾病的平均AUC达到0.893。 * 在视网膜OCT检测任务中,对3种视网膜疾病的平均AUC达到0.895。 这些结果强有力地证明了逆监督学习范式可成功迁移至不同的身体部位和影像模态。
四、 结论与意义
本研究成功提出并验证了“逆监督学习”这一新颖的AI学习范式,并基于此开发了全球首个仅需健康影像数据即可实现广谱疾病检测的AI系统。该系统在头部CT上实现了对百余种疾病的高精度检测,其性能媲美专家水平,并具备优异的泛化能力和临床实用性。
科学价值:1)范式创新:逆监督学习从根本上解决了医学AI领域广谱疾病检测的数据瓶颈问题,为AI在复杂临床环境中的应用开辟了新道路。2)方法创新:巧妙地将图像修复技术用于生成“健康对照”,并结合对比学习思想训练识别网络,构建了一套完整且高效的异常检测框架。3)可解释性:系统提供的病变热图和三维分布图,增强了AI决策的透明度,符合临床辅助诊断的需求。
应用价值:1)降低开发门槛:任何能进行医学影像检查的机构,无需收集繁杂的病变数据,即可利用本院丰富的健康影像资源开发高性能AI辅助诊断工具。2)提升诊断效率与质量:可作为“第一道筛检线”,快速从海量影像中标记出可疑病变,辅助放射科医生(尤其是资源匮乏地区的医生)提高诊断速度和准确性,减少漏诊。3)技术可迁移:研究已初步证明该技术在肺部和视网膜疾病检测上的有效性,预示着其在眼科、胸科、骨科等多个医学影像领域具有广阔的应用前景。
五、 研究亮点
六、 其他有价值内容
研究还对系统的可解释性进行了深入分析,展示了病变在脑部三维空间中的分布曲线,这些分布与不同疾病在实际脑组织中的发生频率相符,进一步印证了系统识别结果的生物学合理性。此外,文中将逆监督学习与现有的异常检测方法(如基于自编码器、GAN的方法)进行了对比,结果显示其性能显著优于这些基线方法,凸显了其设计优势。