基于多尺度融合与特征重建卷积的医学图像分割模型

分享自：
基于多尺度融合与特征重建卷积的医学图像分割模型

影像医学与核医学
生物医学工程
期刊:biomedical signal processing and controlDOI:10.1016/j.bspc.2025.108464
【点击此处】阅读全文、收藏及针对性提问
本文向中文读者介绍一项于《Biomedical Signal Processing and Control》期刊第112卷（2026年）上发表的原创性研究论文。该论文由北京建筑大学机电与车辆工程学院（Fuyao Wang， Chuantao Wang*， Xiumin Wang）与中国医学科学院北京协和医院骨科、国家重大疾病共性机制研究重点实验室（Chi Ma， Jiliang Zhai， Yu Zhao*）的联合研究团队共同完成，于2025年8月16日在线发表。通讯作者为Chuantao Wang和Yu Zhao。论文题为《基于多尺度融合与特征重建卷积的医学图像分割模型》，提出了一种名为CS-Net的新型神经网络架构，旨在解决甲状腺超声图像分割中因低对比度、严重噪声和边界模糊所带来的挑战。
本研究隶属于医学图像处理与计算机辅助诊断的科学领域。医学图像分割是临床诊断与治疗规划中的关键技术，旨在从医学图像中精准划分出目标器官或病变区域。甲状腺超声因其无创、实时等优点成为甲状腺疾病筛查的主要手段。然而，甲状腺超声图像普遍存在图像质量不佳的问题，如对比度低、噪声干扰强、组织边界模糊不清。这些固有缺陷严重制约了传统图像处理方法以及现有主流深度学习模型（如基于卷积神经网络CNN的U-Net及其变体）的特征提取能力和分割鲁棒性。尽管近年来基于Transformer的架构因其强大的全局上下文建模能力被引入医学图像分割并取得优异表现，但它们往往伴随着高计算复杂度、训练困难以及在有限数据或噪声条件下性能不稳定的问题。因此，开发一种既能有效处理低质量超声图像特征冗余与语义鸿沟，又能保持较高效率与鲁棒性的分割模型，具有重要的研究价值与应用需求。本研究的目标正是针对上述问题，提出一个集成多尺度融合与特征重建卷积的新型分割模型CS-Net，以提升在困难条件下的甲状腺超声图像分割精度和稳定性。
本研究的工作流程系统而完整，主要包含以下几个部分：模型设计、实验设置与验证、结果分析与讨论。
首先，在模型设计阶段，研究团队对经典的U-Net架构进行了系统性的改进，提出了CS-Net的整体框架。该框架保留了U-Net的对称编码器-解码器（Encoder-Decoder）U型结构，但在三个核心部分进行了创新替换。第一，在编码器（Encoder）部分，用提出的空间与通道重建卷积模块替换了传统的卷积块。SCCONV模块是其核心创新之一，旨在抑制特征冗余并增强对低质量区域细粒度细节的提取。该模块由空间重建单元（SRU）和通道重建单元（CRU）协作构成。SRU通过基于组归一化（Group Normalization）缩放因子的门控机制，分离并交叉重建特征图，以降低空间冗余。CRU则通过分割-变换-融合流程，利用分组卷积（GWC）和点式卷积（PWC）高效处理通道信息，并通过通道描述符进行软注意力加权，实现通道层面的特征重建与精炼。第二，在跳跃连接（Skip Connection）部分，用设计的通道交叉融合Transformer模块取代了U-Net中简单的拼接操作。CCT模块基于视觉Transformer架构，旨在对齐和融合多层次语义特征，缓解编码器与解码器之间的语义鸿沟。其工作流程包括：对编码器四个层次的特征进行多尺度嵌入和位置编码，形成序列；将这些序列作为键（Key）和值（Value），并与各层次独立的查询（Query）一起输入到一个多头通道交叉注意力（Multi-head Channel-wise Cross-Attention）机制中；该机制计算不同层次特征之间的相关性，实现语义信息的跨尺度交互与融合；最后通过多层感知机（MLP）和残差连接输出增强后的多尺度特征。第三，在解码器（Decoder）的上采样部分，用提出的像素注意力引导融合与上采样模块替换了传统的转置卷积或双线性插值。PAGU模块的动态权重分配机制是其关键。它将CCT模块输出的富含语义的多尺度特征与解码器深层特征进行对比，通过1x1卷积、求和及Sigmoid函数，计算出一个像素级的权重图σ。该权重图指示了对于每个像素位置，应更信任哪一路特征的信息（σ值高则信任深层特征，反之则信任CCT特征），并据此对两路特征进行动态加权融合，从而提升边界恢复和目标定位的准确性。
其次，在实验设置与验证阶段，研究团队在两个公开的甲状腺超声数据集上进行了全面评估，并设计了详尽的实验流程。使用的数据集包括DDTI（包含637张有像素级标注的超声图像）和TN3K（包含3493张甲状腺结节超声图像）。实验前，数据集按8:1:1的比例划分为训练集、验证集和测试集，所有图像统一缩放至224x224像素，并采用了随机翻转、裁剪等数据增强技术。实验的硬件平台为配备NVIDIA RTX 3090 Ti显卡的工作站，软件基于PyTorch框架。模型使用结合交并比（IoU）损失和二元交叉熵（BCE）损失的复合损失函数进行端到端训练，初始学习率为0.0015，采用指数衰减策略，共训练300轮。评估指标选用Dice系数、平均交并比（mIoU）、精确率（Precision）和召回率（Recall）。
验证实验主要分为三部分：1）消融实验：在DDTI数据集上，以标准U-Net为基线，逐步添加SCCONV、CCT、PAGU模块，以验证各模块单独及组合的有效性。共设计了8组实验（例如：基线、基线+SCCONV、基线+CCT、基线+PAGU、基线+CCT+PAGU、基线+SCCONV+PAGU、基线+SCCONV+CCT以及完整的CS-Net）。2）对比实验：在DDTI和TN3K两个数据集上，将CS-Net与五类代表性先进模型进行性能对比，包括基于CNN改进的U-Net、U-Net++、AttUNet，以及基于Transformer改进的TransUNet和SwinUNet。所有对比模型均在相同条件下从头训练。3）高斯噪声干扰实验：在DDTI数据集上，向测试图像添加方差为1%、3%、5%、7%、9%的高斯噪声，评估CS-Net及其他五种对比模型在不同噪声水平下的鲁棒性。
第三，在结果分析阶段，论文对各项实验的结果进行了详细的阐述和逻辑梳理。消融实验的结果（以表格形式呈现）清晰地展示了各模块的贡献。例如，在DDTI数据集上，单独添加SCCONV模块使Dice系数从基线的76.65%提升至81.74%；单独添加CCT模块提升至80.35%；单独添加PAGU模块提升至79.43%。而两两组合及三者组合的性能进一步提升，最终完整的CS-Net取得了87.36%的Dice系数、85.79%的mIoU、87.01%的精确率和86.84%的召回率。实验5、6、7的比较表明，SCCONV模块对性能提升贡献最大，因为它从根本上改善了特征提取的质量。实验6与8（有/无PAGU）的对比显示，引入PAGU后各项指标有显著提升（如Dice提升约2%），验证了其动态融合机制的有效性。这些结果有力地证明了每个提出的模块都是有效的，且它们之间具有协同作用，共同构成了CS-Net高性能的基础。
对比实验的结果进一步证实了CS-Net的优越性。在DDTI数据集上，CS-Net在所有四项评估指标上均超越了所有对比模型，其中Dice系数比表现次优的SwinUNet（86.70%）高出0.66%，比基准U-Net高出10.71%。在更大型、更具挑战性的TN3K数据集上，CS-Net依然保持了最佳性能，Dice系数达到86.47%。论文通过可视化分割结果图（Fig. 7 & Fig. 8）直观地展示了性能差异。图中可见，在边界模糊、对比度低或存在多个病灶的复杂案例中，U-Net、U-Net++等模型容易出现欠分割（漏掉部分区域）或过分割（将单一区域错误分裂），而TransUNet和SwinUNet的分割轮廓仍与真实标注存在偏差。CS-Net则能生成最接近真实标注的、连续且准确的 segmentation mask，这归功于其SCCONV模块的细节提取能力、CCT模块的语义对齐能力以及PAGU模块的边界优化能力。
高斯噪声干扰实验的结果（以折线图形式呈现，Fig. 10）突显了CS-Net的鲁棒性。随着噪声方差增大，所有对比模型的性能（Dice和mIoU）均出现明显下降。在噪声方差为9%时，U-Net、TransUNet、SwinUNet的Dice系数分别下降了约4.93%、4.19%、4.02%。相比之下，CS-Net的下降幅度最小，仅下降了1.29%（Dice）和2.61%（mIoU）。这表明CS-Net所引入的模块能够有效抑制噪声干扰，学习到更鲁棒的特征表示，因此在模拟真实世界噪声环境的测试中表现出了显著优势。
基于上述实验结果，本研究得出了明确的结论：针对甲状腺超声图像分割的挑战，所提出的CS-Net模型通过集成SCCONV、CCT和PAGU三个创新模块，实现了从特征提取、语义融合到上采样重建的全流程增强，有效提升了在低质量图像上的分割精度和鲁棒性。在两个公开数据集上的实验表明，CS-Net性能优于当前先进的代表性模型，并且在噪声干扰下保持了更强的稳定性。消融研究证实了每个模块的有效性和必要性。
本研究的科学价值在于：1）提出了一种新的神经网络架构设计思路，即通过特征重建、跨尺度语义对齐和像素级动态融合的协同作用，来解决医学图像分割中的特定难题。2）所提出的SCCONV、CCT、PAGU模块具有可解释性和一定的通用性，可为其他医学图像分割任务提供参考。应用价值在于：CS-Net为甲状腺超声图像的自动分割提供了一个有前景且可靠的解决方案，有望集成到计算机辅助诊断系统中，辅助临床医生进行更高效、更客观的病灶评估和诊断规划，提升诊疗水平。
本研究的亮点包括：1）方法创新性：原创性地提出了三个核心模块（SCCONV， CCT， PAGU），每个模块都针对U-Net架构的特定缺陷进行了针对性设计，并形成了有效的互补与协同。2）性能优越性：在多个标准数据集和严苛的噪声测试下，均取得了state-of-the-art或极具竞争力的性能。3）分析系统性：通过详尽的消融实验、对比实验和鲁棒性测试，完整地验证了模型设计的有效性和可靠性，论证过程严谨。4）问题针对性：紧密围绕甲状腺超声图像的实际难点（低对比、噪声、模糊边界）展开研究，具有明确的临床问题导向。
此外，论文在讨论部分也客观指出了CS-Net的局限性，例如模型结构因引入新模块而相对复杂，可能对在资源极度受限的边缘设备上部署带来挑战；当前研究仅针对2D图像，未扩展到3D或动态场景；模型在少样本或跨域场景下的泛化能力有待进一步验证。这些也为未来的研究方向提供了清晰的指引，包括模型轻量化、3D拓展、多模态信息融合等。论文的结尾部分还列出了研究获得的基金支持，体现了该工作受到国家级及省部级科研项目的资助。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问