基于多视图多层级卷积神经网络的乳腺X线摄影人工智能系统在乳腺癌检测、诊断及BI-RADS分类中的应用

分享自：
基于多视图多层级卷积神经网络的乳腺X线摄影人工智能系统在乳腺癌检测、诊断及BI-RADS分类中的应用

影像医学与核医学
生物医学工程
期刊:insights into imagingDOI:10.1186/s13244-025-01983-x
【点击此处】阅读全文、收藏及针对性提问
基于多视角多层级卷积神经网络的乳腺钼靶人工智能系统：用于乳腺癌检测、诊断及BI-RADS分类支持
本研究由Hongna Tan、Qingxia Wu、Yaping Wu（共同第一作者）及Meiyun Wang（通讯作者）领衔，联合来自郑州大学人民医院、河南省人民医院、河南省肿瘤医院、郑州大学第一附属医院、郑州大学第三附属医院、郑州市中心医院、阜外华中心血管病医院、北京联影智能影像技术研究院、上海联影智能医疗科技有限公司、上海科技大学等多所机构的研究人员共同完成。该研究发表于2025年的学术期刊《Insights into Imaging》。
学术背景 乳腺癌是女性肿瘤相关死亡的主要原因，其发病率持续上升。乳腺X线摄影（Mammography）是乳腺癌筛查最常用的影像学方法，早期诊断对降低死亡率至关重要。在临床常规工作中，美国放射学会发布的乳腺影像报告和数据系统（Breast Imaging Reporting and Data System， BI-RADS）为乳腺X线报告提供了标准化指南，有助于乳腺癌的诊断和管理。然而，由于个体差异（尤其是乳腺密度）以及经验丰富的放射科医生缺乏，人工解读乳腺X线片的假阳性率和假阴性率仍然很高。例如，BI-RADS 4类（恶性可能性2%-95%）范围宽泛，常导致不必要的活检。此外，既往大规模基于人工智能（AI）的乳腺X线摄影研究主要针对高加索人群，而对亚洲女性关注较少，而亚洲女性通常具有较高比例的致密腺体和模糊病灶，这给诊断带来了额外挑战。因此，本研究旨在开发一个适用于亚洲人群的人工智能系统（Artificial Intelligence System, AIS），用于自动检测和诊断乳腺癌，并进一步评估其在辅助BI-RADS分类决策方面的性能，特别是在BI-RADS 0、3、4类这些临床决策不确定性较高的类别中。
研究详细流程 本研究是一项回顾性多队列研究，流程主要包括AIS的开发与验证、对BI-RADS 3-4亚组的分析、对BI-RADS 0类病例的AIS辅助再评估，以及一项平衡设计的AIS辅助读者研究。
1. 研究样本与数据收集： 研究纳入了2012年8月至2018年12月期间12，433名亚洲女性的24，866个乳房数据。所有乳腺X线片均使用Hologic Selenia Dimensions数字乳腺X线摄影系统采集。研究数据分为多个独立数据集： * 训练集与验证集： 来自中心1的14，123个乳房（28，246张图像），按8：2比例随机分割，用于在乳房层面开发和验证AIS。 * 测试集1与测试集2： 分别来自中心2的3，517个乳房（7，034张图像）和6，226个乳房（12，452张图像），作为外部独立测试集，用于在乳房层面测试AIS。 * 辅助集： 来自一个附属中心的1，000个乳房（2，000张图像，经病理证实），仅用于AIS开发第一步（病灶层面）的训练和验证。 所有病例均具有明确的病理结果（恶性或良性）或超过2年的正常影像学随访记录。
2. 人工智能系统（AIS）的开发： 本研究开发了一个两步走的多视角多层级AIS。 * 第一步：病灶层面的恶性病灶定位。 研究人员提出一个病灶层面的多任务网络，联合学习可疑病灶的定位和特征（恶性或非恶性）。具体流程是：将原始图像随机裁剪为512×512的图块，输入多任务网络，获得图块层面的肿瘤分割和分类结果。随后，将图块分类输出合并为“恶性图1”，显示恶性病灶特征的粗略热图；将图块分割输出合并为“恶性图2”，用于定位可疑恶性区域。 * 第二步：乳房层面的恶性诊断。 将原始的CC位和MLO位图像，与第一步生成的“恶性图1”和“恶性图2”共同作为三通道输入，训练一个EfficientNet-B0网络进行图像层面的分类，旨在学习宏观的恶性特征。输入图像被调整至1100×600像素的分辨率以适应网络架构，并使用了在ImageNet上预训练的权重进行迁移学习。通过平均CC位和MLO位的EfficientNet-B0预测概率，得到乳房层面的癌症分类结果。该概率值被称为AIS评分，分数越高表示恶性可能性越高。
3. BI-RADS 3-4亚组的分层分析： 由于BI-RADS 3-4类（恶性可能性0-95%）具有高度不确定性，本研究进行了分层分析，以测试AIS对BI-RADS 3-4类发现进行升级或降级的能力。两位具有10年以上经验的资深放射科医生对有明确病理结果的乳房进行了BI-RADS分类（0-5）。分析仅纳入两位医生评估一致的病例。研究中以BI-RADS 4a作为恶性阈值（因其在预测恶性时具有平衡的敏感性和特异性，且准确率最高）。将AIS预测（以0.5为截断值）与BI-RADS报告进行比较。
4. AIS辅助下的BI-RADS 0类再评估： 在临床实践中，BI-RADS 0类患者需要进一步评估或召回进行额外成像。因此，本研究对BI-RADS 0亚组进行了单独的再评估研究。在BI-RADS 3-4分层分析中被初步评估为BI-RADS 0类的乳房，在经过至少四周的洗脱期后，由相同的放射科医生在AIS辅助下进行重新评估。在AI辅助界面上，专家可以看到AIS预测的可疑区域红色轮廓和恶性概率。专家可以选择参考或忽略AIS结果。
5. AIS辅助研究（读者研究）： 为进一步评估AIS对放射科医生的辅助作用，研究进行了一项平衡设计的读者研究。10名具有不同专业水平的放射科医生（资深：≥10年；中级：3-10年；初级：0-3年）被要求对1，302个具有病理证实的乳房病例进行评估。每位读者需要在有/无AIS辅助的情况下，提供强制的BI-RADS评分（1-5）和恶性概率评分（0-100）。研究采用交叉设计，两次阅读之间设有四周洗脱期，所有读者均对病理结果设盲。
主要研究结果 1. AIS的诊断性能： 在区分恶性乳房与非恶性乳房（良性+无发现）时，AIS在验证集、测试集1和测试集2中取得的曲线下面积（AUC）分别为0.995、0.933和0.947。在区分恶性乳房与良性乳房时，AIS在三个数据集中的AUC分别为0.988、0.910和0.936，显示出优异的诊断性能。
2. AIS在BI-RADS 3-4亚组分层中的益处： 基于病理结果，BI-RADS分类本身在验证集和测试集中的准确率为73.15%-84.09%，而AIS的准确率达到85.06%-96.82%。AIS的AUC值在验证集（0.828 vs 0.988）、测试集1（0.843 vs 0.892）和测试集2（0.873 vs 0.934）均显著高于BI-RADS分类。 对3887个乳房的分析显示，BI-RADS分类导致了6.0%（233/3887）的假阴性（BI-RADS 3和4a）和13.2%（514/3887）的假阳性（BI-RADS 4b和4c）。相比之下，AIS成功地将83.1%（427/514）的假阳性病例正确降级至良性组，从而可能避免过度治疗；同时将54.1%（126/233）的假阴性病例正确升级至恶性组，从而可能避免延误最佳干预时机。总体而言，AIS仅错误分层了5.9%（231/3887）的BI-RADS 3-4类乳房。
3. AIS辅助下对BI-RADS 0类的再评估结果： 在测试集中，共有407个乳房最初被归类为BI-RADS 0。应用AIS后，放射科医生成功地从43个真正恶性的乳房中识别出了7个恶性病灶。AIS在该亚组中表现出高达96.7%（352/364）的特异性。尽管整体敏感性为16.3%（7/43），反映了BI-RADS 0类病例明确分类的挑战，但AIS的高特异性表明其有助于识别一部分可能无需额外检查的病例，同时保持了对恶性病例的警惕。
4. AIS辅助读者研究的结果： AIS独立诊断的AUC为0.926。在无AIS辅助时，10名读者的平均AUC为0.870；在AIS辅助下，平均AUC显著提升至0.888。10名读者中有8名的敏感性得到提升（提升范围2.2%至10.3%），中高级别组读者的平均特异性也略有增加。此外，AIS辅助下，读者间的一致性（组内相关系数ICC）从0.629提高至0.672。研究还发现，AIS对资深放射科医生的提升最大，对初级医生的提升最小，这可能与资深医生能更准确地根据经验判断AI提示的异常有关。
研究结论 本研究开发了一个基于多视角、多层级卷积神经网络的两步走AIS，能够准确地在乳腺X线摄影中检测和诊断乳腺癌。更重要的是，该系统可以作为现有BI-RADS分类标准的辅助决策工具，特别是在对BI-RADS 3-4类病灶进行风险分层方面，能够有效减少假阳性和假阴性，从而可能避免不必要的活检或延误诊断。同时，AIS在辅助处理不确定的BI-RADS 0类病例方面也显示出潜力。读者研究进一步证实，AIS能够显著提升不同经验水平放射科医生的诊断性能（平均AUC）和诊断一致性。
研究价值与意义 * 科学价值： 针对亚洲人群（高比例致密腺体）开发并验证了一个高性能的乳腺X线AI诊断系统，丰富了该领域的研究数据。深入探讨了AI在辅助处理临床决策难点（BI-RADS 0， 3， 4类）中的作用机制和效果，为AI与现有临床标准（BI-RADS）的融合提供了实证依据。 * 应用价值： 所开发的AIS具有转化为临床辅助诊断工具的潜力，可帮助放射科医生，特别是经验不足者，提高诊断准确性和效率，减少误诊和漏诊。通过优化BI-RADS 3-4类的分类，有望降低不必要的活检率（减少假阳性）并更早发现恶性病变（减少假阴性），从而优化医疗资源分配并改善患者预后。
研究亮点 1. 研究人群针对性： 专注于亚洲女性人群，解决了该群体因乳腺致密而导致诊断难度大、相关AI研究不足的问题。 2. 系统设计创新性： 采用“病灶定位+乳房分类”的两步走、多视角（CC/MLO）、多层级（图块特征+图像特征）的深度学习框架，综合利用了局部细节和全局上下文信息。 3. 临床问题导向性： 不仅关注AI的独立诊断性能，更重点研究了AI如何辅助解决临床实际痛点——即对BI-RADS分类中不确定性最高的0、3、4类进行优化，研究目标明确且具有直接的临床意义。 4. 验证全面性： 除了常规的内部验证和外部测试，还专门设计了针对BI-RADS亚组的分析、对BI-RADS 0类的再评估，以及一项严谨的、平衡设计的、多读者水平的辅助研究，从多个维度全面评估了AIS的效能和价值。 5. 结果可视化： 使用旭日图等可视化手段清晰展示了AIS如何重新分配BI-RADS 3-4类病例，直观体现了其避免过度治疗和延误治疗的能力。
其他有价值的讨论 研究也坦诚地指出了其局限性：1）数据集中存在明显的类别不平衡（因数据主要来自有症状的患者而非筛查人群），良性（BI-RADS 1-2类）比例较低，可能影响模型在真实世界筛查环境中的泛化性能；2）所有影像数据均来自单一设备厂商（Hologic），需要在多厂商设备上进一步验证；3）AIS仅基于影像数据开发，未结合临床信息；4）模型基于亚洲人群开发，在其他人群中的普适性有待验证。这些为未来的研究方向提供了清晰的指引。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问