本文报告了一项名为“GraphSKT: Graph-Guided Structured Knowledge Transfer for Domain Adaptive Lesion Detection”的原创性研究,由Chaoqi Chen, Jiexiang Wang, Junwen Pan, Cheng Bian 和 Zhicheng Zhang共同完成,其中Chaoqi Chen来自香港大学计算机科学系,其余四位作者均就职于字节跳动(中国广州)。该研究发表于2023年2月的期刊《IEEE Transactions on Medical Imaging》(第42卷第2期)。
研究的学术背景主要植根于计算机视觉和医学影像分析的交叉领域,特别是无监督领域自适应(Unsupervised Domain Adaptation, UDA)与病灶检测的结合。近年来,基于对抗性学习的方法在领域自适应检测任务中占据主导地位。尽管这些方法在各种任务中普遍有效,但学到的特征表示可能无法捕捉到图像内在的拓扑结构,因此在真实世界应用中,尤其是在医学图像中因成像设备不同导致的几何畸变等分布偏移情况下,表现脆弱。在这种情况下,强行匹配跨域的数据分布并不能确保精确的知识转移,反而容易导致负迁移(negative transfer)。医学领域的数据集通常规模较小(例如,本文中的多数数据集仅有约1,000张图像),这使得现代过参数化的深度网络在训练阶段容易陷入过拟合,加剧了领域自适应中的挑战。因此,本研究旨在从关系推理(relational reasoning)的角度探索领域自适应病灶检测问题,并提出了一个新颖的图引导结构化知识转移(GraphSKT)框架,以克服现有方法的缺陷。其核心目标是,通过建模领域内(intra-domain)和领域间(inter-domain)的拓扑结构,实现精确的、结构化的知识迁移,提升医学图像(如结肠镜图像中的息肉和乳腺X光图像中的肿块)的跨域检测性能。
研究的详细工作流程(GraphSKT框架)包含了三个核心组成部分:上下文感知的对应关系挖掘(Context-aware Correspondence Mining, CCM)、领域内结构化知识转移(Intra-domain Structured Knowledge Transfer, IntraskT)和领域间结构化知识转移(Inter-domain Structured Knowledge Transfer, InterSKT)。该框架构建在Faster R-CNN检测模型之上。研究在两个挑战性数据集上进行了评估:结肠镜息肉检测(使用ClinicDB作为源域,分别以Etis-Larib、ASEI和内部私有数据集作为目标域)和乳腺X光肿块检测(使用Inbreast作为源域,DDSM作为目标域)。
首先,上下文感知的对应关系挖掘(CCM)模块旨在从医学图像中提取结构化知识,其核心是定义图节点。该模块面临两个技术挑战:如何从整张图像中抽象出信息丰富的区域,以及如何定义每个区域的特征。GraphSKT没有简单地使用规则或不规则图像块,而是结合了实例级特征(富含语义但缺乏上下文信息)和浅层/中层提取的上下文特征(富含位置信息但难以感知语义结构)的优势。具体步骤分为两步: 1. 特征融合(Feature Fusion):为了获得对场景的整体理解,CCM采用了一种非线性聚合策略,通过随机化多线性映射(randomized multilinear map)来增强实例级特征,使实例级特征与上下文表示之间能够进行乘法交互。公式表示为 f̂_ins = 1/√d * (R1 * f_c) ◦ (R2 * f_ins),其中f_c是上下文特征的串联,f_ins是实例级特征,R1和R2是随机矩阵,◦表示元素乘法。这种融合策略增强了特征的表达能力。 2. 对应关系挖掘(Correspondence Mining):基于增强后的实例级特征,CCM利用互最近邻约束(mutual nearest neighbor constraints)来挖掘跨域的对应关系。具体而言,为每个源域前景实例在目标域中寻找其最近邻,然后反过来检查该目标域实例在源域中的最近邻是否属于同一类别,从而筛选出一组最具代表性的源域和目标域实例,作为后续构建图结构的节点集合(V_s和V_t)。
其次,领域内结构化知识转移(IntraskT)模块旨在建模每张图像内部的区域间关系,使用CCM筛选出的节点(增强实例特征)和边来动态学习每个域内的长程关系与交互。为了避免全连接图带来的噪声连接和巨大计算开销,IntraskT通过构建两种类型的关系图来形成一个稀疏的图结构: 1. 几何关系图(Geometric Graph):建模两个区域提案(Region Proposals)之间的空间关系。通过两个指标——区域间距离(平方欧几里得距离)和区域间相关性(交并比,Intersection over Union, IOU)——来定义图中节点之间的连接。当两个节点(区域)的IOU大于阈值θ1,或者IOU为零但距离小于阈值θ2时,才会建立连接。边的权重使用节点特征的余弦相似度(cosine similarity)来定义,形成空间邻接矩阵A_spt。 2. 语义关系图(Semantic Graph):建模高层次特征空间中的类别依赖关系。当两个节点特征的余弦相似度大于阈值τ(实验中设置为0.65)时,建立连接,其权重即为余弦相似度,形成语义邻接矩阵A_sec。 最终,通过元素积(A = A_spt ◦ A_sec)结合两种图,形成完整的领域内关系图。为了聚合邻居信息,IntraskT引入了图注意力网络(Graph Attention Networks, GAT)操作,使得每个图节点能够根据其自身表示动态地关注其邻居节点,从而探索域内对象(病灶)的内部结构,增强了学习特征的判别能力。
第三,领域间结构化知识转移(InterSKT)模块旨在建模关键的跨域关系。传统的成对特征对齐方法(如对抗训练)存在两个根本性缺陷:一是未探索跨域的类间依赖关系;二是无法显式地转移节点之间的连接(边)知识。为解决此问题,InterSKT构建了一个异构关系图(heterogeneous relation graph)G_st = {V_s, V_t, A_st},其中V_s和V_t来自IntraskT的节点,A_st是描述源域与目标域节点之间对应关系的邻接矩阵。该邻接矩阵通过高斯核距离来定义。为了显式地约束G_s和G_t之间的关联,并引导G_st的学习过程,InterSKT引入了Gromov-Wasserstein (GW)差异(discrepancy)来衡量分布偏移。GW距离通过比较每个域内节点对之间的距离与另一个域内对应节点对之间的距离,同时考虑了域内和跨域的连接关系。损失函数L_gw计算了源域内图G_s和目标域内图G_t之间的拓扑相似性,并利用此距离作为监督信号,通过图卷积网络技术学习异构关系图G_st,从而将IntraskT和InterSKT统一到一个联合学习目标中。
整个GraphSKT框架的学习目标结合了标准的检测损失(分类损失L_cls和回归损失L_reg)以及GW损失,总体目标函数为:L_overall = L_reg + L_cls + λ * L_gw,其中λ是平衡损失分量的超参数(实验中设为1)。
研究的主要结果在多个跨域病灶检测任务上得到了验证,并进行了全面的对比和消融实验。
在结肠镜息肉检测任务上,GraphSKT在三个迁移任务(ClinicDB → Etis-Larib, ClinicDB → ASEI, ClinicDB → In-house)中均显著超越了“无适应”基线以及包括DA-Faster, SWDA, SCL, ICR-CCR, HTCN, VDD, DBGL 和 CDAD在内的多种先进领域自适应检测方法。具体而言,在平均精度均值(Mean Average Precision, mAP)指标上,GraphSKT相对于性能第二优的方法(CDAD)平均提升了+2.6%(具体为1.9%,1.4%和4.6%)。这证明了通过建模病灶间的拓扑关系进行结构化知识转移,优于仅在像素级或实例级进行成对对齐的方法。
在乳腺X光肿块检测任务(Inbreast → DDSM)上,GraphSKT同样展现出卓越的性能。在假阳性率(False Positives Per Image)为0.5、1.0和2.0时的敏感度(Sensitivity/Recall @ K,即R@0.5, R@1.0, R@2.0)指标上,GraphSKT一致且显著地超越了所有对比方法,平均敏感度比第二优的DBGL方法提升了3.5个百分点(从72.2%提升至75.7%)。这验证了GraphSKT在不同类型病灶检测任务上的可扩展性和通用性。
为了深入理解各个组件的贡献,研究进行了消融分析(Ablation Study)。结果表明:同时移除IntraskT和InterSKT(仅使用CCM筛选的实例构建全连接图)会显著降低性能;移除CCM模块(使用所有实例构建图)虽然会导致性能轻微下降,但模型对噪声边的连接仍表现出一定的鲁棒性。这些结果证实了三个核心模块(CCM, IntraskT, InterSKT)对于实现最优性能都是必要且有效的。
研究还进行了其他有价值的实证分析: 1. 与现有方法的互补性:将IntraskT和InterSKT模块作为即插即用组件应用于SWDA和VDD等代表性的成对对齐方法,能显著提升这些方法的性能,证明了该关系推理模块与现有对齐方法的互补性。 2. 设计选择分析:实验对比了不同的特征融合策略(如直接拼接、点积),结果表明论文提出的非线性融合策略在不同适应任务中均表现出更优且一致的性能。 3. 检测结果示例:可视化结果表明,相较于现有方法,GraphSKT能够更精确地定位息肉和肿块,并显著减少假阳性结果,尤其擅长检测那些与周围组织对比度低、视觉上相似的模糊病灶。 4. 特征可视化:通过t-SNE算法对图像级特征进行可视化,发现GraphSKT能有效弥合源域与目标域之间的差距,产生的特征聚类模式更优且能更好地匹配细节分布。 5. 图模块可视化:通过展示生成的图邻接矩阵,证实了相似性高的病灶区域会被赋予更高的连接权重,从经验上验证了关于不同前景区域存在关系的直觉。
研究的结论是,作者提出了一种新型的GraphSKT框架来解决领域自适应病灶检测问题。其核心思想是通过基于图的结构来增强病灶检测模型对域内和域间区域关系进行推理的能力。该框架通过整合三个精心设计的模块(CCM, IntraskT, InterSKT)实现了这一目标:CCM利用互关系约束挖掘跨域对应的前景建议框;IntraskT构建了两类关系图来建模源域和目标域内的空间与语义关系;InterSKT首先构建了一个异构关系图来建模跨域依赖,然后引入了新颖的GW距离度量来评估跨域拓扑相似性,并将域内和域间图统一到一个联合学习目标中。在结肠镜息肉和乳腺X光肿块检测两个挑战性数据集上的大量实验证明,GraphSKT显著超越了现有最先进的方法。
本研究的价值与意义体现在多个层面。在科学价值上,它跳出了传统的特征分布匹配范式,首次将关系推理和结构化知识显式建模引入到医学图像的领域自适应检测中,为解决负迁移和复杂领域差异问题提供了新的思路和技术路径。应用价值方面,该框架能够有效缓解医学影像分析中由于设备、协议、人群差异导致的领域偏移问题,降低对大规模精确标注数据的依赖,有助于开发更具鲁棒性和普适性的计算机辅助诊断技术,从而减轻医生工作负担,并促进医疗资源均衡。研究还强调了在数据量有限的医学领域,建模数据内部和之间的拓扑结构对于防止过拟合和提升模型泛化能力至关重要。
本研究的亮点在于:1) 重要的发现:揭示了在医学图像领域自适应检测中,建模病灶区域的拓扑关系(结构化知识)比传统的特征对齐更有效,能显著提升跨域检测性能。2) 方法的创新性:提出的GraphSKT框架是首个将图结构同时用于建模域内和域间关系的领域自适应病灶检测方法,并创新性地结合了CCM、IntraskT(几何与语义图)和InterSKT(异构图与GW距离)模块,形成了完整的关系推理链路。3) 研究对象的特殊性:聚焦于具有小数据集、低对比度、复杂背景特点的医学病灶检测,并将其置于更具挑战性的无监督跨域场景下,研究成果对推动智慧医疗和精准诊断具有实际意义。
其他有价值的贡献还包括:提供了详尽的消融实验和设计选择分析,验证了各个组件的有效性和鲁棒性;通过特征和图的清晰可视化,直观地展示了模型的工作原理和优势;实验设计全面,覆盖了两种不同类型的病灶(息肉和肿块)和多个公开/私有数据集,结论可靠且具有说服力。