基于多视角多层级卷积神经网络的乳腺钼靶人工智能系统:用于乳腺癌检测、诊断及BI-RADS分类支持
本研究由Hongna Tan、Qingxia Wu、Yaping Wu(共同第一作者)及Meiyun Wang(通讯作者)领衔,联合来自郑州大学人民医院、河南省人民医院、河南省肿瘤医院、郑州大学第一附属医院、郑州大学第三附属医院、郑州市中心医院、阜外华中心血管病医院、北京联影智能影像技术研究院、上海联影智能医疗科技有限公司、上海科技大学等多所机构的研究人员共同完成。该研究发表于2025年的学术期刊《Insights into Imaging》。
学术背景 乳腺癌是女性肿瘤相关死亡的主要原因,其发病率持续上升。乳腺X线摄影(Mammography)是乳腺癌筛查最常用的影像学方法,早期诊断对降低死亡率至关重要。在临床常规工作中,美国放射学会发布的乳腺影像报告和数据系统(Breast Imaging Reporting and Data System, BI-RADS)为乳腺X线报告提供了标准化指南,有助于乳腺癌的诊断和管理。然而,由于个体差异(尤其是乳腺密度)以及经验丰富的放射科医生缺乏,人工解读乳腺X线片的假阳性率和假阴性率仍然很高。例如,BI-RADS 4类(恶性可能性2%-95%)范围宽泛,常导致不必要的活检。此外,既往大规模基于人工智能(AI)的乳腺X线摄影研究主要针对高加索人群,而对亚洲女性关注较少,而亚洲女性通常具有较高比例的致密腺体和模糊病灶,这给诊断带来了额外挑战。因此,本研究旨在开发一个适用于亚洲人群的人工智能系统(Artificial Intelligence System, AIS),用于自动检测和诊断乳腺癌,并进一步评估其在辅助BI-RADS分类决策方面的性能,特别是在BI-RADS 0、3、4类这些临床决策不确定性较高的类别中。
研究详细流程 本研究是一项回顾性多队列研究,流程主要包括AIS的开发与验证、对BI-RADS 3-4亚组的分析、对BI-RADS 0类病例的AIS辅助再评估,以及一项平衡设计的AIS辅助读者研究。
1. 研究样本与数据收集: 研究纳入了2012年8月至2018年12月期间12,433名亚洲女性的24,866个乳房数据。所有乳腺X线片均使用Hologic Selenia Dimensions数字乳腺X线摄影系统采集。研究数据分为多个独立数据集: * 训练集与验证集: 来自中心1的14,123个乳房(28,246张图像),按8:2比例随机分割,用于在乳房层面开发和验证AIS。 * 测试集1与测试集2: 分别来自中心2的3,517个乳房(7,034张图像)和6,226个乳房(12,452张图像),作为外部独立测试集,用于在乳房层面测试AIS。 * 辅助集: 来自一个附属中心的1,000个乳房(2,000张图像,经病理证实),仅用于AIS开发第一步(病灶层面)的训练和验证。 所有病例均具有明确的病理结果(恶性或良性)或超过2年的正常影像学随访记录。
2. 人工智能系统(AIS)的开发: 本研究开发了一个两步走的多视角多层级AIS。 * 第一步:病灶层面的恶性病灶定位。 研究人员提出一个病灶层面的多任务网络,联合学习可疑病灶的定位和特征(恶性或非恶性)。具体流程是:将原始图像随机裁剪为512×512的图块,输入多任务网络,获得图块层面的肿瘤分割和分类结果。随后,将图块分类输出合并为“恶性图1”,显示恶性病灶特征的粗略热图;将图块分割输出合并为“恶性图2”,用于定位可疑恶性区域。 * 第二步:乳房层面的恶性诊断。 将原始的CC位和MLO位图像,与第一步生成的“恶性图1”和“恶性图2”共同作为三通道输入,训练一个EfficientNet-B0网络进行图像层面的分类,旨在学习宏观的恶性特征。输入图像被调整至1100×600像素的分辨率以适应网络架构,并使用了在ImageNet上预训练的权重进行迁移学习。通过平均CC位和MLO位的EfficientNet-B0预测概率,得到乳房层面的癌症分类结果。该概率值被称为AIS评分,分数越高表示恶性可能性越高。
3. BI-RADS 3-4亚组的分层分析: 由于BI-RADS 3-4类(恶性可能性0-95%)具有高度不确定性,本研究进行了分层分析,以测试AIS对BI-RADS 3-4类发现进行升级或降级的能力。两位具有10年以上经验的资深放射科医生对有明确病理结果的乳房进行了BI-RADS分类(0-5)。分析仅纳入两位医生评估一致的病例。研究中以BI-RADS 4a作为恶性阈值(因其在预测恶性时具有平衡的敏感性和特异性,且准确率最高)。将AIS预测(以0.5为截断值)与BI-RADS报告进行比较。
4. AIS辅助下的BI-RADS 0类再评估: 在临床实践中,BI-RADS 0类患者需要进一步评估或召回进行额外成像。因此,本研究对BI-RADS 0亚组进行了单独的再评估研究。在BI-RADS 3-4分层分析中被初步评估为BI-RADS 0类的乳房,在经过至少四周的洗脱期后,由相同的放射科医生在AIS辅助下进行重新评估。在AI辅助界面上,专家可以看到AIS预测的可疑区域红色轮廓和恶性概率。专家可以选择参考或忽略AIS结果。
5. AIS辅助研究(读者研究): 为进一步评估AIS对放射科医生的辅助作用,研究进行了一项平衡设计的读者研究。10名具有不同专业水平的放射科医生(资深:≥10年;中级:3-10年;初级:0-3年)被要求对1,302个具有病理证实的乳房病例进行评估。每位读者需要在有/无AIS辅助的情况下,提供强制的BI-RADS评分(1-5)和恶性概率评分(0-100)。研究采用交叉设计,两次阅读之间设有四周洗脱期,所有读者均对病理结果设盲。
主要研究结果 1. AIS的诊断性能: 在区分恶性乳房与非恶性乳房(良性+无发现)时,AIS在验证集、测试集1和测试集2中取得的曲线下面积(AUC)分别为0.995、0.933和0.947。在区分恶性乳房与良性乳房时,AIS在三个数据集中的AUC分别为0.988、0.910和0.936,显示出优异的诊断性能。
2. AIS在BI-RADS 3-4亚组分层中的益处: 基于病理结果,BI-RADS分类本身在验证集和测试集中的准确率为73.15%-84.09%,而AIS的准确率达到85.06%-96.82%。AIS的AUC值在验证集(0.828 vs 0.988)、测试集1(0.843 vs 0.892)和测试集2(0.873 vs 0.934)均显著高于BI-RADS分类。 对3887个乳房的分析显示,BI-RADS分类导致了6.0%(233/3887)的假阴性(BI-RADS 3和4a)和13.2%(514/3887)的假阳性(BI-RADS 4b和4c)。相比之下,AIS成功地将83.1%(427/514)的假阳性病例正确降级至良性组,从而可能避免过度治疗;同时将54.1%(126/233)的假阴性病例正确升级至恶性组,从而可能避免延误最佳干预时机。总体而言,AIS仅错误分层了5.9%(231/3887)的BI-RADS 3-4类乳房。
3. AIS辅助下对BI-RADS 0类的再评估结果: 在测试集中,共有407个乳房最初被归类为BI-RADS 0。应用AIS后,放射科医生成功地从43个真正恶性的乳房中识别出了7个恶性病灶。AIS在该亚组中表现出高达96.7%(352/364)的特异性。尽管整体敏感性为16.3%(7/43),反映了BI-RADS 0类病例明确分类的挑战,但AIS的高特异性表明其有助于识别一部分可能无需额外检查的病例,同时保持了对恶性病例的警惕。
4. AIS辅助读者研究的结果: AIS独立诊断的AUC为0.926。在无AIS辅助时,10名读者的平均AUC为0.870;在AIS辅助下,平均AUC显著提升至0.888。10名读者中有8名的敏感性得到提升(提升范围2.2%至10.3%),中高级别组读者的平均特异性也略有增加。此外,AIS辅助下,读者间的一致性(组内相关系数ICC)从0.629提高至0.672。研究还发现,AIS对资深放射科医生的提升最大,对初级医生的提升最小,这可能与资深医生能更准确地根据经验判断AI提示的异常有关。
研究结论 本研究开发了一个基于多视角、多层级卷积神经网络的两步走AIS,能够准确地在乳腺X线摄影中检测和诊断乳腺癌。更重要的是,该系统可以作为现有BI-RADS分类标准的辅助决策工具,特别是在对BI-RADS 3-4类病灶进行风险分层方面,能够有效减少假阳性和假阴性,从而可能避免不必要的活检或延误诊断。同时,AIS在辅助处理不确定的BI-RADS 0类病例方面也显示出潜力。读者研究进一步证实,AIS能够显著提升不同经验水平放射科医生的诊断性能(平均AUC)和诊断一致性。
研究价值与意义 * 科学价值: 针对亚洲人群(高比例致密腺体)开发并验证了一个高性能的乳腺X线AI诊断系统,丰富了该领域的研究数据。深入探讨了AI在辅助处理临床决策难点(BI-RADS 0, 3, 4类)中的作用机制和效果,为AI与现有临床标准(BI-RADS)的融合提供了实证依据。 * 应用价值: 所开发的AIS具有转化为临床辅助诊断工具的潜力,可帮助放射科医生,特别是经验不足者,提高诊断准确性和效率,减少误诊和漏诊。通过优化BI-RADS 3-4类的分类,有望降低不必要的活检率(减少假阳性)并更早发现恶性病变(减少假阴性),从而优化医疗资源分配并改善患者预后。
研究亮点 1. 研究人群针对性: 专注于亚洲女性人群,解决了该群体因乳腺致密而导致诊断难度大、相关AI研究不足的问题。 2. 系统设计创新性: 采用“病灶定位+乳房分类”的两步走、多视角(CC/MLO)、多层级(图块特征+图像特征)的深度学习框架,综合利用了局部细节和全局上下文信息。 3. 临床问题导向性: 不仅关注AI的独立诊断性能,更重点研究了AI如何辅助解决临床实际痛点——即对BI-RADS分类中不确定性最高的0、3、4类进行优化,研究目标明确且具有直接的临床意义。 4. 验证全面性: 除了常规的内部验证和外部测试,还专门设计了针对BI-RADS亚组的分析、对BI-RADS 0类的再评估,以及一项严谨的、平衡设计的、多读者水平的辅助研究,从多个维度全面评估了AIS的效能和价值。 5. 结果可视化: 使用旭日图等可视化手段清晰展示了AIS如何重新分配BI-RADS 3-4类病例,直观体现了其避免过度治疗和延误治疗的能力。
其他有价值的讨论 研究也坦诚地指出了其局限性:1)数据集中存在明显的类别不平衡(因数据主要来自有症状的患者而非筛查人群),良性(BI-RADS 1-2类)比例较低,可能影响模型在真实世界筛查环境中的泛化性能;2)所有影像数据均来自单一设备厂商(Hologic),需要在多厂商设备上进一步验证;3)AIS仅基于影像数据开发,未结合临床信息;4)模型基于亚洲人群开发,在其他人群中的普适性有待验证。这些为未来的研究方向提供了清晰的指引。