用于三维医学图像分割的并行方向卷积与可变形Transformer联合建模

分享自：
用于三维医学图像分割的并行方向卷积与可变形Transformer联合建模

人工智能
信息科学
期刊:Biomedical Signal Processing and ControlDOI:10.1016/j.bspc.2025.109320
【点击此处】阅读全文、收藏及针对性提问
基于并行方向聚合卷积与可变形Transformer的3D医学图像分割新方法PDATrans：原理、验证与贡献
一、 研究团队与发表信息
本研究的主要作者为贺子洋、刘坤、李浩源、郑斌、刘文涛、朱梦珂、徐伟进、赵文一、贺子君、潘喜鹏和杨慧华。作者团队主要来自北京邮电大学智能工程与自动化学院，合作单位包括万东医疗科技股份有限公司、北京卫星信息工程研究所空间信息系统与应用国家重点实验室、北京警察学院网络空间安全系以及首都医科大学北京天坛医院介入神经放射科。
该研究成果以题为“Joint parallel modeling with direction-wise convolution and deformable transformer for 3D medical image segmentation”的学术论文形式，发表于期刊《Biomedical Signal Processing and Control》第114卷（2026年），文章编号为109320。
二、 学术背景与研究目标
本研究属于医学图像分析与人工智能交叉领域，具体聚焦于三维（3D）医学图像（如CT扫描）的自动分割任务。精确的器官分割对于临床诊断、治疗规划和图像引导干预至关重要。然而，该任务面临三大核心挑战：1) 医学图像体素间距通常具有各向异性（Anisotropic），即不同方向（如轴向、冠状面、矢状面）的分辨率不一致；2) 器官形状复杂多变，边界模糊；3) 需要同时建模局部细节和长程的全局上下文依赖关系。
传统的卷积神经网络（CNNs）擅长提取局部特征，但其固定的、各向同性的卷积核难以适应各向异性的数据和非规则的器官几何形状，且感受野有限，难以捕获全局上下文。Transformer模型通过自注意力（Self-Attention）机制具备强大的全局建模能力，但计算成本高昂，且缺乏对局部模式的归纳偏置。近年来，CNN-Transformer混合架构试图结合两者优势，但主流方法通常采用串联方式，即先进行卷积操作再进行注意力操作，这种顺序执行限制了局部特征与全局特征的联合建模与充分交互。
因此，本研究旨在解决现有混合架构的局限性，提出一种新颖的并行混合网络。其核心目标是：设计一个能够有效应对3D医学图像各向异性、复杂形状和局部-全局依赖关系挑战的分割模型，在提升分割精度的同时，保持或降低计算复杂度，实现精度与效率的更好平衡。
三、 研究详细工作流程
本研究提出了一种名为PDATrans（Parallel Direction-wise Aggregate Transformer）的新型U型网络架构。整个研究流程包括方法设计、实验验证与消融分析三大部分。
1. 方法设计流程： PDATrans的核心创新在于其并行混合模块，该模块在网络的深层阶段取代了传统的串行块。整体架构遵循编码器-解码器范式，但进行了关键改造： * 编码器前端：输入体积图像首先经过一系列纯卷积模块进行下采样，提取低层语义特征。 * 并行混合模块：在编码器和解码器的深层，引入了并行的两个分支： * 卷积分支：采用新提出的方向聚合卷积模块（DACONV）。该模块旨在解决各向异性问题。它将标准的3D卷积分解为沿深度（D）、高度（H）、宽度（W）三个正交方向的三个2D卷积操作。每个方向卷积只在一个空间平面上进行滤波，从而实现对不同方向分辨率的自适应建模。最后，三个方向卷积的输出与一个提供全局上下文的3D残差卷积输出进行简单的元素相加融合。这种设计允许网络以方向感知的方式提取特征，更精准地建模细长或不规则器官。 * Transformer分支：采用新设计的方向移位窗口可变形Transformer模块（DST）。该模块基于Swin Transformer，但引入了可变形注意力机制。其核心是方向聚合可变形注意力（DDA）。DDA不是对固定的、规则网格位置进行注意力计算，而是通过一个轻量级的方向偏移生成网络，根据输入特征内容动态学习一组空间偏移量（offsets）。这个偏移生成网络同样包含三个方向卷积，以捕获各向异性信息。利用学习到的偏移，模型可以对关键（Key）和值（Value）进行“变形”采样，使注意力区域能够自适应地调整到更相关的解剖结构区域（如器官边界），从而增强对复杂3D结构的空间对齐能力。 * 并行与融合：卷积分支和Transformer分支并行处理相同的输入特征。卷积分支输出体积特征图，Transformer分支需先通过“体积到序列”（V2S）操作将输入转换为序列，经DST模块处理后，再通过“序列到体积”（S2V）操作恢复为体积特征。两个分支的输出通过元素相加进行融合，实现了局部细节与全局上下文的即时、互补整合。 * 解码器与损失函数：解码器对称地使用卷积模块和并行混合模块，并通过跳跃连接整合编码器的多尺度特征。最终，模型使用结合交叉熵损失和Dice损失的联合损失函数进行端到端优化。
2. 实验验证流程： 为全面评估PDATrans的性能，研究在三个公开的3D腹部CT数据集上进行了实验： * 数据集： * WORD：包含150个CT扫描，涵盖16个腹部器官。按官方划分，100例用于训练，20例用于测试。 * AMOS22：包含500个腹部临床CT图像，涵盖15个腹部器官。使用300例训练，100例测试。 * BTCV：包含30个病例的3779张轴向CT切片，涵盖13个腹部器官及血管。采用24例训练，6例测试的划分。 * 评估指标：主要使用Dice相似系数（DSC）和归一化表面距离（NSD）来量化分割精度。 * 对比方法：为了公平比较，研究在统一的NNU-Net框架下，将PDATrans与11种先进的医学图像分割方法进行对比，包括NNU-Net、CoTr、nnFormer、UNETR、Swin-UNETR、3D UX-Net、SwinMM、U-Mamba、SegMamba、UNETR++和SAM-Med3D。这些方法涵盖了纯CNN、纯Transformer、串行混合以及最新的Mamba-based模型。 * 实现细节：实验在单张NVIDIA A100 GPU上进行。遵循NNU-Net的默认配置进行数据增强（随机旋转、缩放、翻转、高斯噪声等）和训练策略（SGD优化器，训练1000个epoch）。输入子体积大小根据数据集调整（如WORD为64x192x160）。PDATrans的默认超参数设置为 [N1, N2, M1, M2] = [2, 4, 2, 2]，基础通道数C=32。
3. 消融分析流程： 为验证所提模块的有效性和设计选择的合理性，研究进行了系统的消融实验： * 模块有效性：以PHTrans（一个前期工作）为基线，逐步添加DACONV和DDA模块，观察在WORD数据集上DSC和NSD指标的变化。 * DACONV变体对比：比较了标准3D卷积（Vanilla Conv）、伪3D卷积（Pseudo-3D Conv）以及DACONV的不同融合策略（加法融合 vs. 基于CBAM的注意力融合）的性能。 * 超参数分析：探究了基础通道数C（16, 32, 48）和模型深度配置 [N1, N2, M1, M2] 对性能的影响。 * 可视化分析：使用Grad-CAM生成注意力热图，直观展示DACONV和DDA模块对模型关注区域的影响，比较不同模块组合下模型对器官局部细节和全局结构的捕捉能力。
四、 主要研究结果
1. 定量分割性能： 在三个数据集上，PDATrans均展现出卓越的分割性能。 * 在WORD数据集上：PDATrans取得了最高的平均DSC（86.39%）和平均NSD（79.40%），相比强大的基准模型NNU-Net分别提升了1.56%和1.94%。在16个器官中的大多数上，其性能达到最优或次优。特别是在胆囊、食管等体积小、对比度低、形状不规则的挑战性器官上，PDATrans表现出了显著优势。 * 在AMOS22数据集上：PDATrans在15个器官中的11个上取得了最高的DSC，平均DSC（91.65%）和NSD（88.43%）与表现最佳的U-Mamba模型（91.71%， 88.38%）相当，但计算成本显著更低。 * 在BTCV数据集上：PDATrans取得了最高的平均DSC（85.78%），相比NNU-Net提升1.47%，并在多个器官上保持领先。 * 效率分析：PDATrans在取得优异精度的同时，保持了合理的计算开销。其参数量为59.6M，计算量为1242.7 GFLOPs，单次扫描推理时间为115.36秒。虽然略高于一些轻量级基线（如CoTr），但远低于计算密集型的U-Mamba（175.99秒）和SwinMM（519.35秒），体现了其在精度与效率间的良好权衡。
2. 定性分割结果： 可视化结果（论文中的Fig. 5和Fig. 6）进一步证实了PDATrans的优越性。与对比方法相比，PDATrans生成的器官边界更精确、更完整，特别是在解剖结构复杂、器官间重叠或对比度低的区域（如胰腺与十二指肠交界处、股骨头、胆囊与肠道相邻处）。PDATrans能更好地保持解剖结构的一致性，减少了过分割或欠分割的错误。
3. 消融实验结果： * 模块贡献：在PHTrans基线模型上单独添加DACONV模块，平均DSC提升1.61%；单独添加DDA模块，平均DSC提升1.67%。两者结合（即完整的PDATrans）带来最大提升（2.0%），证明了两个模块的互补性和并行架构的有效性。DACONV主要增强了模型对局部细节和各向异性结构的捕捉（注意力热图显示器官内部响应更集中），而DDA则提升了模型对器官全局形状和边界的理解（热图显示更完整的结构关注）。 * DACONV设计验证：与标准3D卷积和伪3D卷积相比，采用加法融合的DACONV取得了最佳性能（DSC: 0.8639）。而引入更复杂的CBAM注意力融合机制反而导致性能下降，表明简单的元素相加能更好地平衡各方向特征，保持空间一致性，是实现高效体积特征聚合的更优选择。 * 超参数鲁棒性：实验表明，PDATrans在不同通道宽度和深度配置下表现稳定。默认配置 [2,4,2,2] 在性能和计算成本间取得了最佳平衡。
五、 研究结论与价值
本研究成功提出并验证了PDATrans，一个用于3D医学图像分割的并行混合网络。其主要结论是：通过并行集成方向感知卷积（DACONV）和解剖自适应的可变形注意力（DST），PDATrans能够有效应对医学图像的各向异性和复杂结构变异，实现局部细节与全局上下文更优的联合建模。
该研究的科学价值在于：1) 方法论创新：提出了一种新的并行混合架构范式，打破了传统串行CNN-Transformer的局限，为设计更高效的视觉模型提供了新思路。2) 模块创新：针对医学图像特性量身定制了DACONV和DDA模块，为解决各向异性和复杂几何形状建模问题提供了具体的技术方案。3) 性能提升：在多个标准基准测试上实现了最先进或极具竞争力的分割精度，同时保持了较高的计算效率。
其应用价值显著：PDATrans所展现的高精度和相对高效的特性，使其有望集成到临床计算机辅助诊断（CAD）系统中，辅助医生进行更快速、更准确的器官勾画和量化分析，从而提升诊疗流程的自动化水平和可靠性。
六、 研究亮点
创新的并行混合架构：首次在3D医学图像分割中提出并验证了卷积与Transformer的并行协同工作模式，实现了局部特征与全局特征的即时、互补融合，而非传统的顺序处理。
针对性解决各向异性问题：提出的方向聚合卷积（DACONV） 创新性地将3D卷积分解为三个正交方向的2D卷积，显式地建模了医学图像中普遍存在的各向异性特性，提升了对细长或不规则器官的表征能力。
解剖自适应的注意力机制：设计的方向移位窗口可变形Transformer（DST） 及其核心方向聚合可变形注意力（DDA），通过内容学习到的偏移动态调整注意力区域，使模型能够更灵活地聚焦于与解剖结构相关的区域，增强了对复杂形状的适应能力。
卓越的精度-效率平衡：在三个具有挑战性的公共数据集上的综合实验表明，PDATrans在达到最先进分割精度的同时，其计算成本和推理时间显著低于许多同类高性能模型，证明了其方法的实用性和高效性。
七、 其他有价值内容
研究团队指出了当前工作的局限性和未来方向：由于缺乏大规模标注的3D医学图像数据集，DST模块未能进行预训练，这可能限制了其跨领域的泛化能力。未来的工作将致力于开发针对DST的端到端预训练策略，以进一步提升模型的鲁棒性和适应性。此外，PDATrans的核心设计原则（并行混合、方向感知、可变形注意力）具有通用性，其潜力可延伸至医学图像分析的其他任务，如磁共振成像（MRI）分割、跨域配准、异常检测和3D重建等，为解决更广泛的医学图像分析问题提供了新的工具和思路。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问