本文旨在向研究者介绍一篇题为“RTNet: Relation Transformer Network for Diabetic Retinopathy Multi-Lesion Segmentation”(RTNet:用于糖尿病视网膜病变多病灶分割的关系变压器网络)的原创性研究论文。
一、 研究作者、机构与发表情况 本项研究的主要作者包括来自北京理工大学光学与光子学学院的Shiqi Huang, Jianan Li, Yuze Xiao, Ning Shen,以及来自北京理工大学重庆创新中心的Tingfa Xu。该研究发表于期刊《IEEE Transactions on Medical Imaging》(IEEE医学影像汇刊)2022年6月出版的第41卷第6期。
二、 学术背景与研究目标 本研究属于医学图像分析领域,具体聚焦于利用深度学习方法对糖尿病视网膜病变(Diabetic Retriopathy, DR)病灶进行自动分割。糖尿病视网膜病变是全球范围内导致工作年龄人群失明的主要原因之一。其病灶主要包括微血管瘤(Microaneurysms, MAs)、出血(Hemorrhages, Hes)、软性渗出(Soft Exudates, Ses)和硬性渗出(Hard Exudates, Exs)。早期诊断和干预对于控制病情发展至关重要。然而,人工筛查对医疗资源负担沉重,因此发展自动化的DR病灶分割技术具有重大临床意义。
尽管已有许多基于深度学习的研究致力于此,但作者指出,先前的研究大多过于关注网络结构设计,而忽略了病灶之间的病理学关联。通过对DR病灶致病原因的预先研究,他们发现某些病灶(如Ses)与特定血管(如上、下动脉干)密切相关,并且病灶之间呈现相对固定的空间分布模式(例如Exs通常围绕一个或多个MAs呈环形排列)。基于这一观察,本研究的目标是设计一种能够利用这些病理关联的新型网络,以更准确、更高效地同时分割四种DR病灶。
三、 研究详细工作流程 本研究工作流程主要包含以下几个关键部分:研究目标与思路设计、网络架构构建、实验设计与数据准备、模型训练与优化、以及在多个数据集上的评估与消融实验。
1. 研究思路与网络架构设计: 核心思路是构建一个双分支网络,同时利用血管信息和病灶信息,并通过引入基于Transformer机制的模块来建模它们之间的病理学关系。为此,作者提出了两个核心模块: * 全局变压器块(Global Transformer Block, GTB): 该模块在骨干网络(Backbone)之后引入,为病灶和血管分支分别生成更具特异性的特征。其灵感来源于GCNet,但进行了改进。GTB通过生成通道级查询向量和空间级键值对,实现了一种结合通道注意力和空间注意力的机制。这有助于在深层网络中保留小尺寸病灶(如MAs)和边界模糊病灶(如Ses)的细节信息,抑制无用通道信息,从而在像素级别精细化特征。 * 关系变压器块(Relation Transformer Block, RTB): 这是本研究的创新核心。RTB包含一个自注意力头(Self-Attention Head)和一个交叉注意力头(Cross-Attention Head)。 * 自注意力头: 输入仅为病灶特征,用于捕获病灶之间的长程依赖关系和空间交互模式(例如Se与He, Ex与Ma之间的关系),从而增强同类病灶特征的区分度与联系,减少病灶间的误分类。 * 交叉注意力头: 输入为病灶特征和血管特征,其关键在于查询(Query)来自病灶特征,而键(Key)和值(Value)来自血管特征。这使得模型能够将血管的结构信息整合到病灶分割过程中。由于许多病灶(如Se和Ma)的分布与特定血管相关,且复杂的眼底结构容易导致病灶误检,交叉注意力可以利用血管提供的空间布局先验信息,辅助定位病灶并消除远离血管的假阳性。
完整的网络架构(RTNet)流程如下:输入眼底图像首先经过一个基于UNet架构、以DenseNet-161为编码器的骨干网络,得到共享特征图。该共享特征随后输入两个并行的GTB分支,分别生成血管特异性特征和病灶初级特征。病灶特征接着输入RTB模块。RTB的自注意力头和交叉注意力头分别处理病灶特征以及病灶-血管特征对,输出经过关系建模的特征。这两个头的输出在通道维度拼接,形成RTB的最终输出。最后,通过两个独立的分割头(每个包含归一化层和1x1卷积)分别预测血管掩膜和多病灶掩膜。
2. 研究对象与数据准备: 研究在两个公开的DR数据集上进行评估: * IDRiD数据集: 来自2018年视网膜图像分割与分级挑战赛。包含81张高分辨率眼底图像,每张图像带有四种病灶的像素级标注(如果存在)。训练集54张,测试集27张。 * DDR数据集: 来自中国ODIR-2019竞赛。包含用于分割的757张图像,训练集383张,验证集149张,测试集225张。该数据集图像质量不一,挑战性更大。 数据预处理包括:使用在DRIVE和STARE数据集上预训练的模型生成血管伪掩膜;将大图像随机缩放并裁剪为512x512大小的小块;应用随机水平/垂直翻转、旋转等数据增强;对所有输入图像进行对比度受限的自适应直方图均衡化(CLAHE)以增强对比度。
3. 实验设置与模型训练: 模型使用PyTorch实现。骨干网络为结合了DenseNet-161编码器的UNet。批量大小设为16,使用SGD优化器,初始学习率0.001,每120个周期衰减0.1倍,共训练250个周期。损失函数由病灶分割损失和血管分割损失加权组成。病灶分割损失为五类(背景、Ex、He、Ma、Se)加权交叉熵损失,根据类别不平衡问题设置了不同的权重(例如Ma的权重最高为1.0)。血管分割损失为二元加权交叉熵损失。总损失中血管损失的权重λ设为0.1。
4. 评估、对比与消融实验流程: * 评估指标: 采用精确率-召回率曲线下面积(AUC_PR)和受试者工作特征曲线下面积(AUC_ROC)。在医学图像中,AUC_PR(更关注召回率)被认为更具实际价值。 * 与先进方法对比: 在IDRiD和DDR数据集上将RTNet与现有最先进方法进行定量比较。 * 消融研究: 在IDRiD数据集上进行系列实验以验证各组件有效性: * 骨干网络分析: 比较不同编码器(ResNet-34⁄50, Xception, VGG19-bn, DenseNet-161)的性能。 * 损失函数正则化项分析: 尝试引入针对血管拓扑结构的正则化项(如针对细小血管的焦点损失、针对连通性的中心线损失)。 * GTB效果分析: 比较基线(无GTB和RTB)、基线+GTB的性能。并将GTB与其他主流注意力模块(如CBAM, SENet)比较。通过可视化注意力图定性展示GTB捕捉小病灶的能力。 * RTB效果分析: 逐步分析血管信息的作用(简单拼接病灶与血管特征)、交叉注意力头的作用、自注意力头的作用,以及完整RTB的作用。通过可视化不同病灶查询位置对应的自注意力和交叉注意力图,展示RTB如何聚焦于相关组织和血管结构。
四、 主要研究结果 1. 与先进方法的对比结果: 在IDRiD数据集上,RTNet在AUC_ROC指标上取得了Ex、Ma、Se分割的最佳性能,在AUC_PR指标上取得了Ex和Se分割的最佳性能,在He分割的两项指标上均排名第二。值得注意的是,排名前五的方法大多使用独立模型分别分割四种病灶,而RTNet使用单一模型同时分割所有病灶,在保证性能的同时显著提高了效率。在更具挑战性的DDR数据集上,RTNet在Ex、Ma、Se分割任务上超越了所有对比方法,在He分割上排名第二。结果证实了RTNet的有效性和鲁棒性。
2. 消融实验结果: * 骨干网络: DenseNet-161作为编码器时在所有病灶上性能最佳,因此被选为最终骨干网络。 * 正则化项: 针对血管的正则化项对性能提升不明显,作者分析可能受限于血管伪掩膜的精度上限。 * GTB效果: 定量结果显示,添加GTB后,所有四类病灶的AUC_PR均有提升。与CBAM等注意力模块对比,GTB性能更优。定性可视化显示,GTB的注意力图能更有效地突出小而离散的病灶模式,并精细化感兴趣区域的形态。 * RTB效果: 实验清晰地展示了各组件的作用链: * 简单拼接血管与病灶特征(Concatenate)相比基线带来了性能增益,尤其是在与血管关系密切的He和Se上,初步证实了血管信息的价值。 * 使用交叉注意力头(CAH)代替简单拼接后,所有四类病灶的分数得到进一步提升,说明Transformer方式的特征交互比简单拼接更有效。 * 再加入自注意力头(SAH)后,性能获得巨大改善,表明建模病灶内部关系同样至关重要。 * 最终,同时包含GTB和RTB的完整网络取得了最高分。损失曲线和PR曲线图显示,完整网络的曲线几乎完全包络了其他消融版本的曲线,证明了其优越性。 * 可视化结果显示,对于Ma查询点,自注意力图倾向于关注其他小尺寸模式,而交叉注意力图则专注于血管分支,这有助于减少将血管误认为病灶的假阴性,并消除远离血管的假阳性。
3. 泛化性研究结果: 在DDR数据集上训练,然后在IDRiD数据集上测试的跨域泛化实验中,RTNet相比其他方法取得了最佳性能,表明其具有良好的泛化能力,能够适应不同成像条件下的图像。
4. 定性结果: 分割结果可视化直观展示了GTB和RTB的贡献:GTB主要帮助发现了基线模型漏检的病灶(黄色框示);RTB在GTB基础上,进一步拾取了更多漏检,并显著减少了假阳性警报(绿色框示)。同时,RTB使得大病灶(尤其是边界模糊的Se)的边缘分割更加精确。
五、 研究结论与价值 本研究提出了一种新颖的关系变压器网络RTNet,用于同时分割四种糖尿病视网膜病变病灶。其核心贡献在于首次在眼底医学图像病灶分割中引入了基于多头Transformer结构的关系建模模块(RTB),显式地探索了病灶间的内部依赖关系以及病灶与血管间的病理关联。同时,提出的全局变压器块(GTB)有效保留了深层网络中的细节信息。实验在两个公开数据集上证明了RTNet的优越性,达到了最先进的性能水平。
该研究的科学价值在于将病理学先验知识成功嵌入到深度学习模型设计中,推动了从单纯网络结构优化向结合领域知识驱动模型设计的发展。其应用价值在于提供了一种高效、准确的DR多病灶自动分割工具,能够辅助眼科医生进行诊断和筛查,减轻医疗负担,具有重要的临床转化潜力。
六、 研究亮点 1. 创新性方法: 首次提出在DR病灶分割中利用关系变压器(RTB)来建模病灶内部及病灶-血管间的病理学关联,这是将医学领域知识深度整合到深度学习架构中的一次成功尝试。 2. 有效组件设计: 提出的GTB模块针对医学图像小目标分割难题进行了优化,通过通道与空间结合的注意力机制,有效保留了关键细节。 3. 高效的多任务框架: 采用单一模型同时完成四种病灶的精确分割,避免了训练多个独立模型带来的参数调优复杂度和计算资源消耗,提升了实用效率。 4. 全面的实验验证: 不仅在标准数据集上取得了领先性能,还通过详尽的消融实验、可视化分析和跨域泛化测试,深入验证并解释了各组件的作用机制,使研究工作扎实可信。
七、 其他有价值内容 研究也指出了当前工作的局限性:由于缺乏同时包含血管和DR病灶像素级标注的数据集,网络使用的血管信息来源于半监督学习生成的伪掩膜,其粗糙性可能限制了网络性能的进一步提升。作者展望未来将通过改进血管半监督学习策略和优化变压器结构来取得更好性能。这一反思为后续研究指明了方向。