关于E2MISeg网络在三维医学图像分割中应用的学术研究报告
一、 研究作者、机构及发表信息
本研究由来自中国多所高校和医院的科研人员合作完成。主要作者包括:Lincen Jiang、Wenpin Xu(并列第一作者)、Xinyuan Zheng、Zitong Zhang、Zekun Jiang、Chong Jiang(通讯作者之一)、Yanli Chen、Yimu Ji、Shangdong Liu(通讯作者之一)、Jianwei Liu和Jingyan Xu(通讯作者之一)。参与机构包括:南京邮电大学计算机学院、四川大学华西医院核医学科、四川大学华西医院生物医学大数据中心、天津大学医学部以及南京大学医学院附属鼓楼医院血液科。
该研究成果以题为《E2MISeg: Enhancing Edge-Aware 3D Medical Image Segmentation via Feature Progressive Co-Aggregation》的论文形式,发表于《Expert Systems with Applications》期刊第296卷(2026年),文章编号128861。该论文于2025年3月10日提交,经修订后于2025年6月30日被接受,并于2025年7月6日在线发布。论文遵循CC BY-NC-ND 4.0许可协议,相关代码已开源在GitHub平台。
二、 研究的学术背景
本研究属于医学影像分析与人工智能交叉领域,具体聚焦于三维医学图像分割(3D Medical Image Segmentation)任务。医学图像分割旨在从复杂的CT、MRI等影像中自动或半自动地分离出感兴趣区域(ROIs),为医生的诊断和治疗规划提供关键辅助。然而,该任务面临巨大挑战:分割目标(如器官、肿瘤)的位置、形状和尺寸存在显著差异;医学图像本身的对比度有限,灰度差异细微,导致病灶边界和形状难以精确界定。尤其是在边界模糊、目标尺度变化大、像素级边缘对比度低的情况下,获得清晰、平滑的分割边缘尤为困难。
传统的基于卷积神经网络(CNN)的方法,如U-Net及其变体,通过利用不同尺寸的卷积核在医学图像分割中取得了一定成功。然而,CNN固有的局部感受野特性限制了其捕捉长距离依赖和建模全局特征的能力,在处理形态变异大的病灶时缺乏灵活性。近年来,Transformer模型因其卓越的全局上下文建模能力,在分割大尺度病灶方面表现出色。一些混合架构(如TransUNet、UNETR)尝试结合CNN的归纳偏置和Transformer的全局依赖编码能力,在多器官和肿瘤分割任务中展现了优秀性能。尽管如此,在复杂的真实世界场景中(如全身性肿瘤、边界模糊的病灶),现有的混合模型在边界分割上仍然存在困难,因为它们通常依赖于单个注意力层内的特征标记,未能有效捕获或整合多尺度信息。
此外,现有公开数据集(如ACDC心脏分割、BraTS脑肿瘤分割)虽然质量高,但多基于先进设备采集的理想病例,其临床普适性有限。在医疗资源欠发达地区,临床图像常因设备限制而存在噪声和低分辨率问题。因此,构建更贴近真实临床场景、包含复杂病灶分布的低质量图像数据集,对于推动分割算法的实际应用至关重要。
基于以上背景,本研究旨在解决边界模糊条件下的三维医学图像分割难题。具体目标包括:1)提出一种新颖的增强边缘感知的三维医学图像分割网络(E2MISeg),通过特征渐进协同聚合实现边界模糊条件下的平滑分割;2)设计有效的模块来提升边缘体素分类精度和对前景区域的敏感性;3)引入动态的损失函数以引导网络关注边缘不清的区域;4)构建并引入一个更贴近真实临床场景的多中心、多设备采集的套细胞淋巴瘤PET影像诊断(MCLID)数据集,以增强算法对复杂临床数据的鲁棒性。
三、 研究的详细工作流程
本研究的工作流程主要包括方法设计、数据集构建、实验验证与结果分析三大环节,核心是提出的E2MISeg网络架构及其组件的开发与验证。
1. E2MISeg网络架构设计: E2MISeg是一个具有分层编码器-解码器结构的混合Transformer-CNN并行网络。整体输入是一个三维图像块。编码器包含四个阶段(E-stage 1~4),每个阶段包含块嵌入层、下采样层和混合特征表示(Hybrid Feature Representation, HFR)块。块嵌入层将输入图像划分为多个三维块。下采样层逐步降低特征图的空间分辨率并增加通道数。HFR块是核心特征表示模块,采用CNN与Transformer并行的架构,旨在从空间和通道维度细化特征学习,特别是增强对非显著前景(如边缘)特征的学习能力。它包含一个CNN模块(用于提取局部细节特征)和一个Transformer模块。Transformer模块内部设计了交互式特征选择器(Interactive Feature Selector, IFS)以及并行的交互式通道注意力块(Interactive Channel Attention Block, ICAB)和交互式空间注意力块(Interactive Spatial Attention Block, ISAB),使Transformer能够理解CNN局部细节特征的依赖关系,并进行有效的跨模块交互。
解码器同样包含四个阶段(D-stage 1~4),每个阶段包含上采样层、多级特征组聚合(Multi-level Feature Group Aggregation, MFGA)模块和HFR块。MFGA模块是本研究的另一个核心创新,旨在解决分割中的伪边缘和边缘断裂问题。其工作流程如下:首先,它将来自编码器的低层特征图(富含边缘细节)、来自解码器的高层特征图(富含语义信息)以及通过深度监督生成的预测分割掩码(提供显式形状先验)在通道维度上分组并进行对应块的聚合。接着,对聚合后的特征块应用层归一化,然后使用不同扩张率的空洞卷积处理,以构建混合感受野,增强对局部边缘的敏感性和全局结构一致性的认知。最后,将这些特征图沿通道维度拼接,并通过普通卷积块进行交互,生成输出特征图。MFGA模块的输出将传递给下一解码阶段进行进一步处理和信息融合。
网络的最终分割掩码由解码器末端的残差块(ResBlock)输出生成。此外,研究还提出了尺度敏感(Scale-Sensitive, SS)损失函数,该函数的核心创新是构建了一个适应尺度变化的动态权重因子。当预测目标与真实目标之间的尺度差异较大时,通过该因子的单调性动态增强梯度,迫使网络优先优化尺度不匹配的目标;同时引入方差稳定项来抑制极小目标优化时的振荡,确保多尺度场景下的稳定收敛。总损失函数由尺度敏感Dice损失和交叉熵(CE)损失加权组合而成。
2. 数据集构建与预处理: 为了全面验证所提方法的有效性,研究使用了三个公开挑战数据集和一个自建临床数据集。 * 公开数据集:包括用于心脏MRI分割的ACDC数据集(100例患者,分割左心室、右心室、心肌)、用于脑肿瘤MRI分割的BraTS数据集(包含T1、T1-c、T2、FLAIR四种模态,分割整个肿瘤、增强肿瘤、肿瘤核心)以及用于肺肿瘤CT分割的Decathlon-Lung数据集(63例)。均按照标准流程进行了裁剪、重采样等预处理。 * 自建临床数据集(MCLID):这是本研究的一项重要贡献。研究团队回顾性收集了来自中国多家顶级医院(南京鼓楼医院、四川大学华西医院)的176例套细胞淋巴瘤患者的PET影像数据。这些数据使用不同设备(如Philips Gemini-GXL, GE Discovery PET/CT Clarity 710)采集,具有以下特点,使其更贴近真实临床场景:1)多中心、多设备:增强了数据的多样性和泛化性。2)低分辨率、高噪声:像素间距和切片厚度范围较大,图像质量不一。3)病灶弥散、边界模糊:淋巴瘤可分布于全身21个淋巴结区域,PET影像中肿瘤边缘常因浸润性生长或低对比度而模糊,且易受生理性摄取部位和骨骼干扰。数据预处理包括将灰度值映射到0~1范围、使用窗宽窗位调整图像强度以增强组织对比度、将体素间距重采样至统一大小以及裁剪至固定尺寸。实验采用五折交叉验证。
3. 实验设置与评估: 研究在单个NVIDIA A800 80GB GPU上训练网络,未使用预训练权重。训练周期为1000个epoch,使用带动量的SGD优化器,采用“poly”学习率衰减策略。在模型推理阶段,采用滑动窗口方法。为了公平比较,研究遵循相关工作的相同预处理、数据增强、输入尺寸和批次大小设置。
评估指标采用医学图像分割领域常用的四种度量:Dice相似系数(DSC,衡量重叠度)、95%豪斯多夫距离(HD95,衡量边界误差)、杰卡德相似系数(Jaccard)和灵敏度(Sensitivity)。研究将E2MISeg与多个最新的先进方法进行了对比,包括4种纯CNN方法(MedNext, nnUNet, ER-Net, I2U-Net)、3种纯Transformer方法(CoTR, nnFormer, Missformer)以及6种混合Transformer方法(3D UX-Net, UNETR, UNETR++, TransUNet, TransBTS, Swin-UNETR)。
4. 消融实验设计: 为了验证所提各个组件的有效性,研究进行了系统的消融实验。 * 组件间消融:依次在基线模型上添加MFGA模块、SS损失函数和HFR块,观察各组件对性能的贡献及协同作用。 * 组件内消融: * MFGA模块:测试了不同空洞卷积扩张率组合策略对性能的影响。 * HFR块:评估了CNN模块与Transformer模块之间不同交互级别(如查询、键、值向量的来源)对分割性能的影响,并测试了移除ICAB或ISAB组件后的效果。 * SS损失函数:通过网格搜索确定了损失函数中权重系数α和β的最佳组合,并与其它损失函数(如标准Dice损失、广义Dice损失等)进行了对比。
四、 研究的主要结果
1. 与先进方法的对比结果: E2MISeg在四个数据集上均取得了领先或极具竞争力的性能。 * 在ACDC数据集上:E2MISeg取得了最高的平均DSC(93.62%),并且在右心室(RV)、心肌(Myo)、左心室(LV)各个子类别的分割上均表现最佳。可视化结果进一步表明,对于形态变化大、轮廓不清晰、与正常组织对比度低的右心室,E2MISeg能产生更准确的区域和边缘分割。 * 在BraTS数据集上:E2MISeg取得了最高的平均DSC(83.99%)和最低的平均HD95(4.67 mm),在肿瘤各个子类别(WT, TC, ET)的DSC上也均为最高。这表明模型在复杂脑肿瘤分割中实现了有效且高精度的边缘分割。可视化结果显示,E2MISeg能有效解决其他方法未能处理的假边界问题。 * 在Decathlon-Lung数据集上:E2MISeg的DSC(80.11%)比当时最佳方法(UNETR++, 79.10%)绝对提升了1.01%,HD95相对降低了13.4%。定性比较显示,对于不规则肿瘤和边界模糊的肿瘤,E2MISeg能更有效地探索整个肿瘤区域及其边缘,并具有更低的假阳性率。 * 在MCLID数据集上:E2MISeg在DSC(65.64 ± 9.96%)、HD95(46.15 ± 8.97 mm)、Jaccard(52.15 ± 8.45%)和灵敏度(60.14 ± 10.77%)指标上均优于其他所有对比方法。虽然其DSC方差略高于UNETR++,但均值提升显著(p < 0.01),且HD95的方差最小,表明其在复杂肿瘤区域具有更好的误差稳定性。三维分割可视化结果证实,在肿瘤集中区域(如脾区),E2MISeg能实现更接近真实标注的平滑分割;在肿瘤弥散或涉及小目标的区域,E2MISeg相比其他方法能更好地抑制生理性高摄取干扰,并降低弥散小肿瘤的漏分割率。
2. 消融实验结果: * 组件间消融:在ACDC、BraTS和MCLID数据集上的实验表明,逐步添加MFGA、SS损失和HFR块能持续提升模型性能(平均DSC分别提升0.15%、0.16%、0.73%至最终1.05%、1.65%、2.71%),且组件间存在协同效应。单独添加MFGA可能因现有特征中边缘线索不足而导致HD95性能下降,而SS损失的加入能通过反馈更准确的掩码来恢复边缘信息,HFR块则通过高效挖掘前景和边缘纹理特征进一步提升了协作能力。可视化结果直观显示了随着组件增加,心脏器官边缘的分割越来越精确。 * 组件内消融: * MFGA扩张率:实验发现,采用均匀递增的扩张率组合(1, 3, 5, 7)能最好地平衡全局和局部信息提取,在ACDC上达到最佳DSC(93.62%)和最低HD95(2.28 mm)。单一的小或大扩张率策略均会导致性能下降。 * HFR交互机制:当查询(Q)和值(V)向量均来自CNN模块输出时(Q=Q_cnn, V=V_cnn),性能达到最佳(DSC: 93.62%)。这证实了跨注意力与混合特征编码之间的协同对于增强边缘感知分割非常重要。移除ICAB或ISAB均会导致性能下降,说明Transformer模块在理解CNN局部细节特征方面(通过通道间依赖和空间依赖)起到了互补作用。 * SS损失函数:参数搜索表明,当α=1.6, β=1.0时,在ACDC上取得最佳DSC(93.62%)。适当增加SS损失的权重有助于模型关注边缘不清的区域,但权重过大会影响全局建模。与其他损失函数(如标准Dice、广义Dice等)相比,基于SS损失的配置在Dice和HD95指标上均具优势,突出了其在建模临床肿瘤边缘特征方面的独特优势。
五、 研究的结论与价值
本研究提出并验证了E2MISeg,这是一种专为边界模糊情况下实现平滑分割而设计的新型增强边缘感知三维医学图像分割网络。其核心在于采用了特征渐进协同聚合策略,通过HFR块提供病灶区域和边缘的纹理特征,结合SS损失函数引导网络产生精确的分割掩码,再由MFGA模块对这些纹理特征和掩码应用分组聚合和分组空洞卷积策略,从病灶组织与背景的边界线索中实现增强的边缘体素分类。
实验结果表明,E2MISeg在ACDC和BraTS等公开数据集上超越了其他先进模型,设立了新的性能基准。更重要的是,在更具挑战性的自建MCLID临床数据集上,E2MISeg的性能显著优于现有各种架构的模型,证明了其在复杂真实临床场景中的有效性和鲁棒性,具有显著的临床医学应用价值。
六、 研究的亮点
七、 其他有价值的内容
研究也坦诚地指出了当前方法的局限性。分析表明,尽管E2MISeg能够对肿瘤和器官进行有效的边缘分割,但在某些病例中,与大多数现有模型一样,仍难以完全解决生理性摄取干扰以及准确分割小型、弥散淋巴瘤的难题。作者将此列为未来工作的重点。此外,论文提供了详细的网络训练配置参数(如表3),确保了研究的可重复性。所有实验均报告了p值以证明结果的统计显著性,并开源了代码,体现了研究的严谨性和开放性。