分享自:

DirANet:一种在医学图像中具有结构连续性的方向感知分割网络

期刊:displaysDOI:https://doi.org/10.1016/j.displa.2026.103588

关于DiraNet:一种在医学图像中具有结构连续性的方向感知分割网络的学术研究报告

一、 作者、机构与发表信息

本研究由来自Wenzhou UniversityZhihan ZhangHaiguang HuangJunjie Liu以及来自Hangzhou Dianzi UniversityYingwei Yang合作完成。相关研究成果以论文形式“DiraNet: A Direction-Aware Segmentation Network with Structural Continuity in Medical Images”发表于Elsevier旗下的期刊“Displays”。根据文本信息,该论文的接收日期为2026年6月13日,修订日期为2026年6月1日,最初提交日期为2026年2月27日,属于一篇期刊预校样(Journal Pre-proof)文章,表明其已通过同行评审并被接受,正处于最终的出版准备阶段。

二、 研究背景与目的

本研究属于医学图像分析与计算机视觉交叉领域,具体聚焦于医学图像分割任务。医学图像分割是计算机辅助诊断、治疗规划和手术导航等临床应用的基础技术。其目标不仅是追求像素级的预测精度,更重要的是确保分割结果在解剖结构上的连续性和医学语义上的一致性。在实际的医学成像场景中,许多器官和病变区域(如血管、肠道、组织边界)表现出强烈的方向相关性和显著的结构连续性。

然而,现有的分割方法,尤其是近年来兴起的基于序列的视觉模型(如Transformer及其变体),在处理此类复杂解剖结构时面临瓶颈。具体背景问题包括:第一,将二维图像展平为一维序列的标准操作破坏了固有的局部空间邻域关系,使得模型难以捕捉方向特定的结构连续性。第二,通过不同扫描方向(如行优先、列优先)获得的特征序列存在显著的表征差异,导致模型对解剖结构的理解因扫描顺序不同而不稳定。第三,传统的选择性扫描机制(如Mamba架构中)在解码阶段缺乏明确的结构约束,仅依赖浅层解码特征进行状态更新,容易受到噪声和局部模糊性的干扰,最终在分割结果中表现为内部孔洞和边界断裂等结构缺陷。

为此,本研究旨在解决上述问题,提出一种新颖的方向感知分割网络。其核心目标是:通过显式地建模方向连续性和结构一致性,开发一个能够有效捕捉医学图像中长程方向依赖性、并保持解剖结构完整性的高效分割模型,以提升复杂医学成像场景下的分割鲁棒性和临床可用性。

三、 研究方法与详细流程

本研究提出了一种名为DiraNet(Direction-Aware Segmentation Network)的新型网络架构。其整体工作流程基于编码器-解码器范式,并引入了三个核心创新模块:方向自适应注意力(Directional Adaptive Attention, DAA)、方向解耦与融合机制以及方向引导的选择性扫描(Directional Guided Selective Scan, DGSS)。研究流程主要包含以下几个步骤:

1. 数据准备与预处理: 研究选取了涵盖六种典型医学成像场景的十一个公开基准数据集进行综合验证,包括:用于伤口分割的WoundSeg和FUSeg数据集;用于皮肤病变分割的ISIC2016、ISIC2017、ISIC2018和PH2数据集;用于乳腺超声肿瘤分割的BUSI数据集;用于结肠息肉分割的Kvasir-SEG和CVC-ClinicDB数据集;用于腹部多器官分割的Synapse数据集;以及用于心脏结构分割的ACDC数据集。这些数据集涵盖了不同的成像模态(如超声、内镜、MRI、皮肤镜)和临床目标,具有不同的挑战性,如光照不均、低对比度、斑点噪声、器官形状大小变异大等。在训练阶段,输入图像被统一调整至256×256像素(ACDC和Synapse数据集遵循先前工作调整为224×224),并采用了随机旋转、水平翻转等数据增强策略以提升模型泛化能力。

2. 网络架构设计与核心模块: DiraNet采用预训练的VMamba作为骨干编码器,以提取多层级特征。其创新性主要体现在解码路径和特征处理机制上。

  • 方向自适应注意力(DAA)模块: 该模块被嵌入到编码器中,位于生成四个方向特征之后、进行跨方向特征融合之前。其目的是缓解因不同序列展开顺序导致的表征不一致性问题。具体流程为:首先,对编码得到的四个方向特征张量进行全局平均池化,得到紧凑的方向描述符。接着,通过一个1×1卷积层和沿方向维度的Softmax归一化,生成方向注意力权重。最后,利用这些权重对原始方向特征进行自适应重加权,并引入一个可学习的残差标量以稳定训练。这使得网络能够根据输入图像的全局上下文动态地强调信息量丰富的扫描方向,从而实现对扫描顺序的鲁棒性。

  • 方向解耦与融合机制: 为解决一维序列化导致的局部空间邻域信息丢失问题,研究在解码阶段提出了方向解耦操作。对于从编码器提取的每个尺度的特征图,使用一个四方向展开算子(包括前向行主序、后向行主序、前向列主序、后向列主序)将其显式地分割为四个独立的一维序列分量。每个分量保留了特定遍历路径下的方向上下文依赖关系。这些解耦后的方向特征被作为独立的流进行处理,以防止不同空间流之间的干扰。在每个独立流内部,集成了通道注意力和空间注意力机制,以自适应地重新校准特征序列,近似恢复沿各自方向的二维空间局部性。最终,通过一个严格可逆的合并操作,将四个处理后的方向一致表示重新组装成连贯的二维特征图。

  • 方向引导的选择性扫描(DGSS)机制: 这是解码阶段的核心创新,旨在利用深层语义先验来强制实现全局结构完整性,以纠正内部孔洞和边界断裂。在标准Mamba的选择性扫描机制中,输入投影矩阵B和输出投影矩阵C均依赖于当前输入(即浅层解码特征)生成。DGSS对此进行了关键修改:它将局部自适应性与全局语义控制解耦。具体而言,对于每个浅层方向特征及其对应的深层方向先验(从编码器瓶颈特征通过同样的方向解耦得到),B矩阵和步长δ仍由浅层特征通过线性投影产生,以保持对局部细节的适应性;而至关重要的输出投影矩阵C则改为由深层方向语义先验通过线性层动态生成。这种设计使得状态空间模型的状态更新和输出受到高层、稳定的解剖形状先验的明确约束,从而引导浅层特征的 reconstruction 过程,抑制噪声,确保重建出解剖学上连续的结构。

3. 损失函数与训练策略: 网络最终通过分割头产生主要预测结果。此外,为了进一步稳定优化并加强全局语义一致性,研究引入了一个辅助分割头,该头直接作用于从编码器瓶颈提取的深层方向语义先验T上,监督其编码任务相关的全局语义信息。总训练目标定义为两个损失之和:主要预测损失和辅助预测损失。对于二分类分割任务,使用边界加权的二元交叉熵损失和加权交并比损失的组合;对于多类分割任务,则结合Dice损失和交叉熵损失。模型使用AdamW优化器进行训练,编码器和解码器设置不同的初始学习率。

4. 实验设计与分析流程: 研究进行了广泛的实验以验证DiraNet的有效性。首先,在十一个数据集上与众多先进模型进行了定量比较,评估指标包括Dice相似系数(Dice)、平均交并比(mIoU)、豪斯多夫距离95%(HD95)等。其次,进行了详尽的消融实验,以评估DAA、方向解耦、DGSS等各个模块的贡献,以及不同骨干网络微调策略(如冻结、仅微调DAA、结合LoRA、完全微调)的效果。第三,进行了跨数据集泛化能力评估,将在ISIC数据集上训练的模型直接应用于PH2数据集进行测试。第四,对模型的计算复杂度和参数量进行了分析。最后,通过可视化分割结果和类激活图(Grad-CAM)进行了定性分析,直观展示模型在结构连续性和边界完整性方面的优势,并揭示了不同扫描方向关注互补空间区域的内在机制。

四、 主要研究结果

1. 定量性能对比结果: DiraNet在所有六个医学成像场景的十一个数据集上均表现出了高度竞争力和鲁棒的分割性能。 * 皮肤病变分割: 在ISIC2016、ISIC2017、ISIC2018数据集上,DiraNet的mIoU和Dice分数均达到或接近最优水平。特别是在更具挑战性的ISIC2017上,取得了81.45% mIoU和89.77% Dice的最佳成绩。跨数据集测试(ISIC2017→PH2)也取得了第二好的成绩(86.00% mIoU, 92.47% Dice),证明了其强大的跨域泛化能力。 * 伤口分割: 在WoundSeg数据集上,DiraNet以57.96% mIoU和73.39% Dice显著优于其他对比方法。在FUSeg数据集上也取得了最佳性能(83.89% mIoU, 91.24% Dice)。 * 乳腺超声肿瘤分割: 在受严重斑点噪声和低对比度影响的BUSI数据集上,DiraNet取得了73.06% mIoU和84.44% Dice的最高分,显示了其方向感知建模在抑制噪声和增强边界描绘方面的有效性。 * 结肠息肉分割: 在CVC-ClinicDB和Kvasir-SEG数据集上,DiraNet分别取得了与最强竞争者相当的性能(89.06% mIoU, 94.22% Dice)和排名第二的优异性能(83.85% mIoU, 91.22% Dice),表明其在复杂内镜成像条件下能有效平衡区域覆盖率和边界精度。 * 心脏结构分割: 在ACDC数据集上,DiraNet取得了91.87%的平均Dice分数,其中左心室(LV)分割Dice高达95.96%,显示了其对规则心脏解剖结构的强大建模能力。 * 腹部多器官分割: 在具有挑战性的Synapse数据集上,DiraNet取得了81.94%的平均Dice和15.28mm的HD95,达到了最先进的性能,并在右肾、肝脏、胰腺等多个器官上取得了最佳的Dice分数,验证了其处理复杂解剖结构和大尺度患者间变异的能力。

2. 模型效率分析: DiraNet拥有约20.73百万(M)参数和约4.00 GFLOPs的计算量。与大多数基于Transformer的模型相比,其参数量显著更少,同时在各种分割场景中始终提供优越或具有竞争力的性能,实现了精度与效率的良好平衡,支持其在真实临床环境中的实际应用。

3. 消融实验与模块分析结果: * 模块级消融: 在WoundSeg数据集上的实验表明,基线模型的mIoU为55.94%,Dice为71.74%。依次加入通道和空间注意力(CA&SA)、方向解耦与融合(Scan & Merge)以及DGSS模块后,性能逐步提升。最终,所有组件协同集成时达到最优性能(57.96% mIoU, 73.39% Dice),证实了自适应特征调制与结构引导状态转换的高度互补性。 * DAA模块效果: 在BUSI和ACDC数据集上,加入DAA模块后,mIoU、Dice均有所提升,同时边界指标HD95显著下降(ACDC上从1.72降至1.17),证实了DAA在增强方向特征捕获和保持解剖结构连续性方面的有效性。 * 微调策略分析: 参数高效的微调策略(如仅微调DAA模块,或DAA结合LoRA)仅需更新总参数的一小部分(约0.64M-0.86M),即可达到与完全微调(更新20.73M参数)相近的性能,证明了其在平衡精度与效率方面的优势。

4. 定性分析与失败案例: 可视化结果显示,与基线方法相比,DiraNet在具有复杂形状、弱边界或严重成像伪影的区域中,能产生结构更连贯、边界更准确、区域覆盖更完整的分割结果。类激活图可视化进一步揭示,不同的扫描方向关注互补的空间区域和结构线索(如延伸的边界与区域内部),融合后协同贡献于更准确、结构一致的分割预测。研究也分析了失败案例,指出在极端低对比度边界或严重成像伪影情况下,DGSS机制依赖的深层全局先验有时可能会掩盖高度模糊区域的细微局部纹理,导致轮廓不够精确,这为未来工作指明了改进方向。

5. Mamba在长序列建模中的优势验证: 通过在不同输入分辨率(从256×256到640×640)下对比DiraNet与CNN(如UNet)和Transformer(如TransUNet)模型,研究验证了基于状态空间模型(Mamba)的架构在处理长序列时的理论优势。随着分辨率提高、序列长度平方级增长,TransUNet的FLOPs呈指数级飙升,而标准CNN则因感受野有限导致推理速度和分割精度大幅下降。相比之下,DiraNet凭借状态空间模型的线性复杂度,保持了相对稳定的推理速度(约32 FPS)和FLOPs的线性增长,同时其分割性能(如mIoU)保持稳健,展示了其在处理高分辨率医学图像长序列时的可扩展性和实用性。

五、 研究结论与价值

本研究成功提出并验证了DiraNet,一种用于医学图像分割的新型方向感知网络。该网络通过引入方向解耦框架,有效解决了标准序列化视觉模型中二维空间邻域关系丢失的根本问题。在此基础上,联合提出的DAA和DGSS机制,分别缓解了由因果扫描顺序引起的表征差异,并利用深层语义先验强制实现全局结构完整性,从而有效改善了医学图像分割中常见的结构不连续和内部孔洞等缺陷。

该研究的科学价值在于:第一,为医学图像分割中的结构连续性建模提供了一个新颖的、基于方向感知的理论框架和技术路径。第二,深入探索并利用了状态空间模型(Mamba)在医学图像长程依赖建模中的潜力,并通过方向解耦和语义引导机制对其进行了有效的领域适应性改进。第三,通过大量跨场景、跨模态的实验,系统性地验证了所提方法的有效性、鲁棒性和泛化能力。

其应用价值显著:DiraNet在保持较高分割精度的同时,具有相对较低的参数量和计算复杂度,在多种具有挑战性的医学成像场景(皮肤镜、超声、内镜、MRI等)中均表现出色,有助于推动更准确、更可靠的计算机辅助诊断和手术规划工具的发展,具备良好的临床转化潜力。

六、 研究亮点

  1. 创新性的方向解耦框架: 首次在解码阶段显式地将特征表示沿多个空间方向解耦,保留了二维空间结构模式,使模型能够捕捉无干扰的方向特异性长程依赖。
  2. 联合的DAA与DGSS机制: DAA自适应调制方向响应以对齐特征,DGSS则利用深层方向语义先验显式指导浅层状态更新参数,从表征对齐和结构约束两个层面共同保障了分割结果的结构完整性。
  3. 全面的性能验证: 在涵盖六种医学成像场景的十一个公开数据集上进行了广泛实验,证明了模型卓越的跨场景适应性和鲁棒性,其性能在多数数据集上达到领先水平。
  4. 效率与精度的平衡: 模型在取得高性能的同时,参数量和计算量低于许多Transformer-based模型,并通过实验验证了其处理高分辨率图像(长序列)时的线性扩展优势,兼顾了实用性与先进性。
  5. 深入的分析与洞察: 不仅提供了详尽的定量比较和消融实验,还通过可视化手段(如Grad-CAM)深入揭示了方向建模机制的内在工作原理,并坦诚分析了当前方法的局限性,为后续研究指明了方向。

七、 其他有价值的内容

研究还引入了最新的U-Bench评估理念,通过在不同分辨率下对比模型性能与计算开销,从分割精度、推理速度、参数量和计算成本等多个维度综合评估模型的实用性,这体现了作者对模型部署现实挑战的关注。此外,论文对失败案例的分析客观务实,表明模型在极端成像条件下的性能边界,这种分析有助于后续研究的针对性改进。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com