学术研究报告:面向乳腺钼靶肿块检测的可靠多视角对应关系推理研究
一、 作者、机构与发表信息
本研究的主要作者为 Yuhang Liu, Fandong Zhang, Chaoqi Chen, Siwen Wang, Yizhou Wang 以及 Yizhou Yu(IEEE Fellow)。作者团队主要来自北京深睿医疗的AI实验室、北京大学数据科学中心、北京大学信息科学技术学院、前沿计算研究中心及香港大学计算机科学系。该研究以题为《Act Like a Radiologist: Towards Reliable Multi-view Correspondence Reasoning for Mammogram Mass Detection》的论文形式,发表在计算机视觉与模式识别领域的顶级期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence上,网络版发表日期为2021年6月1日,正式刊出在2022年10月第44卷第10期。
二、 学术背景与研究目的
本研究属于医学影像人工智能领域,具体聚焦于乳腺癌筛查的关键任务——乳腺钼靶(Mammogram)肿块检测。乳腺癌是全球女性发病率和死亡率最高的癌症之一,而筛查性乳腺X线摄影已被证明能有效降低早期乳腺癌死亡率。肿块检测是临床诊断的核心步骤。然而,在致密型乳房中,肿块常被高强度致密腺体组织部分遮挡,给放射科医生和计算机辅助检测(Computer-Aided Detection, CAD)系统带来了巨大挑战。
临床实践中,放射科医生并非仅依赖单一视图进行诊断。标准乳腺X线筛查会为双侧乳房各拍摄两个视角:头尾位(Craniocaudal, CC) 和内外侧斜位(Mediolateral Oblique, MLO)。同侧视图(Ipsilateral views, 即同一乳房的CC和MLO视图) 提供了关于肿块三维结构的互补信息;而双侧视图(Bilateral views, 即两侧乳房的相同视图,如左乳CC和右乳CC) 由于具有相似的解剖结构,其间的视觉不对称区域更可能是病变。这种多视角信息的互补效应对于准确解读乳腺X线影像至关重要。放射科医生具备利用多视角推理(Multi-view Reasoning) 能力来识别肿块,但如何赋予现有目标检测模型这种能力,对于临床诊断决策至关重要,却仍是探索的边界。
现有利用多视图关系的工作大致分为两类:基于同侧视图和基于双侧视图的方法。例如,CVR-RCNN通过关系模块(Relation Module)建模CC和MLO视图间的跨提案关系,但其关系学习缺乏明确的约束(如同侧几何和语义关系未被显式考虑),且性能高度依赖于第一阶段区域提案的质量,在腺体遮挡严重时性能会显著下降。另一项工作CBN则融合双侧视图特征以容忍几何变形,但也存在类似的提案缺失问题。绝大多数现有方法仍侧重于提升单视图检测精度。
本研究旨在深入探索多视图推理问题,其核心目标是模仿放射科医生的诊断流程,为现有的目标检测模型赋予可靠的多视角对应关系推理能力。具体而言,研究团队提出了一种新颖的、专为乳腺钼靶肿块检测定制的解剖感知图卷积网络(Anatomy-aware Graph Convolutional Network, AGN),以端到端的方式联合推理多个视图之间的对应关系,从而增强被检测视图的特征表示,做出更全面、精确的临床决策。
三、 研究方法与详细工作流程
AGN是一个通用模块,可以轻松插入到任何现代目标检测框架中,其输入是多视图图像经过骨干网络提取的特征图,输出是增强后的被检测视图特征。整个AGN的工作流程围绕图结构的构建与推理展开,主要包含以下四个关键步骤:
1. 图节点定义与映射: 研究首先需要将图像空间的特征映射到能表示乳腺区域对应关系的“节点”域。这解决了两个基本问题:“节点位于何处”以及“节点代表什么”。 * 伪标志点(Pseudo Landmarks):为了定义具有相对一致解剖位置的节点,研究者没有使用对图像尺度、几何结构变化敏感的均匀网格,而是基于乳腺X线摄影的几何先验知识设计了伪标志点。其设计基于一个关键观察:在标准筛查中,CC视图中的一个点大致对应于MLO视图中一条平行于胸大肌投影平面的线。通过在乳头与胸大肌线之间插入一组等距平行线,并与乳房轮廓相交,在交点间均匀插入点,从而为CC和MLO视图分别定义了一组有序的伪标志点。这些点覆盖了整个乳房区域,每个点代表乳腺中一个位置相对固定的区域。 * 图节点映射(Graph Node Mapping):为了将图像空间的特征f ∈ R^(H×W×C)投影到节点域,研究者设计了K近邻(k-Nearest Neighbors, kNN)前向映射函数 f_k。每个节点关联一个不规则区域,该区域内所有像素的k个最近节点中包含了该节点。通过一个辅助矩阵A(A_ij=1表示第j个节点是第i个像素的k近邻节点之一),进行归一化后得到前向映射矩阵Q_f,进而通过x = (Q_f)^T * f计算得到节点特征表示x。当k=1时,该映射退化为Voronoi图划分。这种方法比固定网格分配更具鲁棒性,并且具有明确的物理意义和更好的可解释性。
2. 双边图卷积网络(Bipartite Graph Convolutional Network, BGN): BGN旨在建模同侧视图(CC和MLO)之间的内在几何和语义关系。它被建模为一个二分图Gb = (V_cc, V_mlo, E_b),其中V_cc和V_mlo分别代表来自CC和MLO视图的节点集,E_b是连接两个节点集之间对应节点的边集。 * 节点与边表示:使用kNN前向映射分别得到CC视图节点特征X_cc和MLO视图节点特征X_mlo。边的邻接矩阵H由两部分组成:几何图H_g和语义图H_s,通过逐元素相乘得到H = H_g ⊙ H_s。 * 几何关系学习:H_g是一个全局先验图,表征视图间的几何约束。由于组织变形和视觉线索缺乏,精确几何对应难以定义。研究者利用训练集中的肿块标注作为视觉线索:如果一个节点最接近某个肿块边界框的中心,则该节点代表该肿块。遍历所有标注肿块,统计CC和MLO视图中代表同一肿块的节点对的共现频率矩阵Γ,然后通过行列归一化得到H_g。这显式地编码了跨视图的肿块位置先验知识。 * 语义关系学习:H_s是一个实例相关的图,表征节点间的外观相似性。为了缓解几何图可能引入的噪声,并利用肿块的外观特征,H_s通过一个可学习的相似性函数计算:H_s_ij = σ([(X_cc_i)^T, (X_mlo_j)^T] * W_s),其中W_s是融合参数,σ是Sigmoid激活函数。这使得模型能够自适应地学习节点间的语义关联。 * 图卷积操作:将节点特征和邻接矩阵增广为统一形式后,遵循标准的图卷积操作进行多层的特征传播与聚合,使得信息能够在二分图结构上有约束地流动。
3. 初始图卷积网络(Inception Graph Convolutional Network, IGN): IGN基于“双侧视图结构相似,不对称区域更可能为肿块”的先验,旨在对比双侧视图(被检测视图与对侧视图)并学习结构相似性。它被建模为图Gi = (V_e ∪ V_c, E_i),其中V_e和V_c分别来自被检测视图和对侧视图。由于视图类型相同,|V_e| = |V_c|。 * 节点与边表示:同样使用kNN前向映射得到双侧视图的节点特征,并拼接作为IGN的节点特征X_i。边的邻接矩阵Ĵ包含两部分:表征视图内节点关系的M(设为0,无自连接,但通过添加自环来保留自身信息)和表征跨视图节点关系的J。 * 容忍几何变形的多分支连接:考虑到双侧视图可能由于固有的几何变形而未完美对齐,研究者没有简单地将对应位置节点相连(J = I_n),而是设计了多分支连接。每个分支定义不同的连接范围:例如,分支s将每个节点与其在对侧视图中的top-s个最近邻节点相连。多个不同s值的分支(如s1, s2, s3)构成了一个初始(Inception)结构的图连接,增强了学习表示的鲁棒性。 * 图卷积操作:对每个分支的邻接矩阵独立进行特征变换,然后将多分支变换后的特征聚合起来,形成最终的图卷积输出。这种设计增强了模型对几何失真的容忍度。
4. 对应关系推理增强(Correspondence Reasoning Enhancement): 此步骤基于构建好的BGN和IGN图,通过图卷积进行信息传播后,将增强后的节点特征映射回图像空间,并与原始骨干特征融合。 * kNN反向映射(Reverse Mapping):为了将图卷积后的节点特征z增强空间特征,研究者设计了kNN反向映射函数c_k,其本质是前向映射的逆过程,使用相同的辅助矩阵A和归一化,将被检测视图对应的节点特征映射回H×W的空间网格上,得到空间特征F_b(来自BGN)和F_i(来自IGN)。 * 特征融合:对于IGN输出的特征F_i,通过一个可学习的权重W_i预测一个空间注意力图F̂_i,它高亮显示双侧视图中不对称的疑似区域。最终,通过一个融合参数W_f,将原始被检测视图特征F_e、BGN增强特征F_b以及IGN的注意力加权特征F̂_i ⊙ F_e进行融合,得到最终的增强特征Y,用于后续的目标检测(如区域提议网络和检测头)。
实验设置与数据处理: 研究在两个标准基准上评估了AGN的有效性:公开数据集DDSM(包含2620个病例,按先前研究划分为1897/211/512用于训练/验证/测试)和一个大规模的内部多中心数据集(包含10,000个病例,来自四个不同厂商,按8:1:1随机划分)。输入图像经Otsu分割提取前景区域,并调整至相同尺寸。通过霍夫变换检测胸大肌线和乳头以嵌入伪标志点。在训练中使用了随机翻转、裁剪和多尺度等数据增强方法。AGN被集成到以ResNet-50为骨干、FPN和可变形卷积(DCN)增强的Mask R-CNN框架中(称为AG-RCNN),使用SGD优化器进行端到端训练。
四、 主要研究结果
1. 与先进方法的性能对比: 在DDSM数据集上,AG-RCNN取得了显著的性能提升。与同样利用多视图信息的CVR-RCNN相比,在相同的假阳性图像数(FPs per Image)水平下,召回率(Recall)显著更高。在研究者重新实现的基线比较中,AG-RCNN在R@0.5(即每张图像0.5个假阳性时的召回率)上达到82.0%,优于单视图的Mask R-CNN with FPN, DCN(76.7%)以及仅使用同侧视图的早期版本BG-RCNN(79.5%)。在更具挑战性、数据量更大、模态更多的内部数据集上,AG-RCNN同样一致性地超越了所有对比方法,证明了其有效性和鲁棒性。与同期工作MommiNet相比,在相似的实验设置下,AG-RCNN在多个FPs指标下均表现出性能优势。
2. 消融实验(Ablation Study)结果: 消融实验系统地验证了AGN各个组件的贡献。 * 伪标志点的有效性:与均匀网格相比,基于解剖先验的伪标志点带来了显著的性能提升,证明了其能更好地建模乳腺区域的对应关系。 * 图节点映射的有效性:与直接裁剪固定区域的方法相比,kNN映射方法更优。实验还发现,当嵌入的节点较密集时,较大的k值能聚合更丰富的上下文信息,从而获得更好性能。 * BGN组件的贡献:单独使用几何图H_g或语义图H_s都能带来性能提升,而两者结合(H = H_g ⊙ H_s)时达到最佳,证明了同时考虑几何约束和外观相似性对于精确建模同侧关系至关重要。 * IGN组件的贡献:实验表明,容忍几何变形的多分支连接(如IGN(1,3,5))性能优于单分支连接,验证了多分支初始结构能增强表示的鲁棒性。 * 模块组合的贡献:仅使用BGN或仅使用IGN都能提升基线性能,而同时使用两者(完整的AGN)能获得最大的性能增益,证明了结合同侧和双侧信息进行完整多视图推理的必要性。
3. 可视化结果: 可视化分析直观地展示了AGN的推理过程和可解释性。 * BGN的关注区域:当给定被检测视图中的一个查询肿块时,通过特定的可视化方法,可以显示BGN在辅助视图中关注的对应区域。结果显示,BGN准确地聚焦于辅助视图中相匹配的肿块区域,这为学习互补特征表示提供了帮助,并为临床解读提供了清晰的视觉线索。 * IGN的注意力图:IGN生成的空间注意力图F̂_i,在被检测视图和对侧视图中,主要高亮显示不对称的区域。这为“该区域可能是肿块”提供了积极的证据支持。 * 特征增强效果:比较特征增强前后响应图(通过通道最大池化得到)发现,增强后的特征在肿块区域激活更加显著。这表明对应关系推理机制有效提升了特征的表征能力。
五、 研究结论与意义
本研究成功提出了一种创新的解剖感知图卷积网络(AGN),用于解决乳腺钼靶肿块检测中的多视角对应关系推理问题。通过模拟放射科医生的诊断思维,AGN联合推理并提炼来自同侧和双侧多个视图的信息,以端到端的方式显著增强了被检测视图在学习过程中的特征表达能力。其核心在于:1)通过双边图卷积网络(BGN) 显式建模同侧视图间的几何约束与语义相似性;2)通过初始图卷积网络(IGN) 建模双侧视图的结构相似性并容忍几何变形;3)通过对应关系推理增强流程,将图节点上学到的多视角知识有效传播并融合到空间视觉特征中。
科学价值与应用价值:该研究是首个明确利用多视图图对应关系进行乳腺肿块检测的工作。它不仅仅是一个性能更强的检测模型,更重要的是提供了一种可解释、基于领域知识的推理框架。该框架将临床先验(解剖结构、视图间关系)以结构化的图模型形式嵌入到深度学习网络中,使模型决策过程更透明、更符合医学逻辑。在实际应用层面,AGN作为一个通用模块,可以无缝集成到现有CAD系统中,有望辅助放射科医生提高诊断效率与准确性,尤其在处理致密型乳房等复杂情况时。可视化结果提供的视觉线索,可以作为一种辅助解释工具,增加医生对AI结果的信任度。
六、 研究亮点
七、 其他有价值的内容
本研究是作者之前会议论文工作的重大扩展,主要从四个方面进行了深化:1) 从仅利用同侧视图扩展到同时结合双侧视图信息,使推理更全面;2) 增强了对应关系推理机制以适应多视图建模场景;3) 在更大的内部多中心数据集上进行了更充分的实验和消融研究;4) 对提出的多视图对应关系推理网络进行了更完整的介绍与分析,并提供了更详尽的实现细节。这体现了研究工作的延续性和深入性。