MSAF-UNet：一种集成传统图像处理与多尺度注意力融合的鲁棒分割方法

分享自：
MSAF-UNet：一种集成传统图像处理与多尺度注意力融合的鲁棒分割方法

生物医学工程
影像医学与核医学
期刊:IEEE Signal Processing LettersDOI:10.1109/lsp.2025.3585818
【点击此处】阅读全文、收藏及针对性提问
文档类型属于类型a，因为文章报告了一项单一原创研究，即提出一种新的医学图像分割方法。
本文向读者介绍一篇发表于2025年《IEEE Signal Processing Letters》期刊第32卷的研究论文，题目为《MSAF-UNet: A Robust Segmentation Method Integrating Traditional Image Processing and Multi-Scale Attention Fusion》。这项研究由来自华南师范大学数据科学与工程学院的叶立奇、张君由、王静、奚琪以及中山大学孙逸仙纪念医院的姚燕丹共同完成。
研究背景与目标
本研究属于医学图像分析领域，专注于整张切片图像（Whole Slide Image, WSI）的精准分割。WSI是现代数字病理学的核心，具有尺寸巨大、特征复杂的特点，对其中的病变区域（如癌细胞）进行准确分割是辅助诊断和定量分析的关键步骤。然而，现有的深度学习方法在处理WSI时面临诸多挑战：首先，有效特征提取困难，传统CNN模型难以同时兼顾图像的纹理细节和颜色信息；其次，模型泛化能力有限，在跨越不同数据集或染色方法时性能下降；再者，全监督方法极度依赖大量精细的人工标注，而标注WSI是一项费时费力的工作。
针对上述问题，本研究旨在开发一种新颖、鲁棒的WSI分割框架。其核心目标有三个：1）有效整合并增强图像的纹理与颜色特征；2）通过模拟交互式输入减少对人工标注的依赖；3）设计一个高效的特征提取与融合网络架构，在提升分割精度的同时保持较好的泛化能力。为此，作者提出了MSAF-UNet模型。
研究流程与方法详述
本研究的工作流程系统而完整，主要包括数据预处理、模型核心结构设计（编码器、多尺度注意力融合模块、解码器）、交互信息模拟以及实验验证四个主要环节。
第一环节：数据预处理与特征增强。 研究首先将巨大的WSI切割成更小的图像块（Patches）进行处理。预处理阶段并非简单的标准化，而是主动对图像特征进行增强，分为两个并行分支： * 纹理特征增强：采用传统图像处理算法。首先使用拉普拉斯（Laplacian）边缘检测算子对图像块进行卷积运算（公式1），以突出组织结构的边缘和轮廓细节。接着，应用大津（Otsu）算法对边缘增强后的图像进行二值化，进一步强化纹理对比。 * 颜色特征增强：针对病理图像中染色差异所蕴含的重要信息。首先对原始图像块应用K-means聚类算法（公式2-4），将像素根据颜色相似度聚类（研究中设置为K=2，模拟前景与背景的二元分类）。聚类后，使用中值滤波（Median Filtering）去除因染色不均匀或噪声产生的孤立点，从而获得一个能初步区分前景（如癌变区域）与背景的、颜色信息被强化的图像。 预处理后的两幅增强图像（纹理增强图和颜色增强图）将与原始图像一起，作为后续神经网络的输入。
第二环节：MSAF-UNet模型架构。 该模型以经典的U-Net结构为基础，进行了多项关键创新。 * 双分支编码器（Encoder）：编码器包含两条并行的路径，旨在捕获不同感受野的特征。 * 小感受野路径：使用3x3卷积核和最大池化（Max Pooling），专注于提取局部细节特征。 * 大感受野路径：使用7x7卷积核和平均池化（Average Pooling），旨在捕获更全局的上下文和结构信息。 这两条路径在每一层都进行特征的交叉融合，确保网络能同时利用局部和全局信息。 * 多尺度注意力融合模块（MSAF Module）：这是本研究的核心创新模块，用于高效融合来自不同源或不同层次的特征图。其工作流程如下： 1. 特征交叉与分割：将待融合的两个特征图X和Y沿通道维度拼接，然后均分为两部分。 2. 注意力权重生成：其中一部分特征被送入两个并行的注意力分支： * 全局注意力分支：结合自适应全局平均池化（Global Average Pooling）与多头注意力机制（Multi-Head Attention）。该分支将特征图压缩为全局向量，并通过注意力机制（公式5）捕获长程依赖关系，生成侧重全局上下文的权重。 * 局部注意力分支：结合空间金字塔池化（Spatial Pyramid Pooling, SPP）与多头注意力机制。SPP将特征图在不同尺度（如8x8, 16x16, 32x32）上进行池化，提取多尺度局部特征。这些特征经过多头注意力处理后，生成侧重局部细节的权重。 3. 特征加权与融合：将两个分支生成的权重矩阵，分别与剩余的另一部分特征进行矩阵乘法等操作，实现自适应加权，最后将加权后的特征融合。MSAF模块通过这种“先分割，后加权”的方式，避免了简单拼接导致的通道维度过大和特征冗余问题，实现了更精细的特征融合。 * 解码器（Decoder）与框提示（Box Prompt）集成：解码器通过2x2反卷积逐步恢复空间分辨率，其每个阶段也包含类似编码器的双分支结构，并使用MSAF模块融合来自编码器的跳跃连接特征和本层上采样特征。最终通过Sigmoid激活输出分割掩码。 为了减少对全人工标注的依赖，作者创新性地引入了“框提示”机制来模拟交互式分割的输入。其流程是：在预处理得到的K-means聚类结果图上，使用广义霍夫变换（Generalized Hough Transform, GHT）来检测类似于癌细胞区域的椭圆形状，并计算其最小外接矩形作为“提示框”。这个矩形框被编码成一个与图像尺寸匹配的二值掩码，然后通过下采样调整到不同尺度，融合到编码器各层的跳跃连接中。这样，网络在训练和推理时就能获得目标大致位置的先验知识，从而更聚焦于相关区域。
第三环节：实验设计与评估。 研究在三个公开的病理图像数据集上进行了全面评估：Camelyon16（400张WSI，训练270，测试130）、Camelyon17（1000张WSI）以及EBHI-Seg（4456张H&E染色图像，涵盖六种组织类型）。实验分为两部分： * 消融实验（Ablation Study）：通过逐步添加或移除模型的关键组件（如MSAF模块、框提示、不同的预处理方法等），在控制变量的条件下验证每个部分对最终性能的贡献。实验结果以表格形式呈现（文中Table I），量化了各模块对精度（Accuracy）、Dice系数、平均交并比（mIoU）等指标的影响。 * 对比实验（Comparative Experiment）：将提出的MSAF-UNet与多个当前代表性的医学图像分割模型进行性能比较，包括TransUNet、Swin-UNet、TransAttUNet、DA-TransUNet和UNeXt等。所有模型在相同实验条件下进行训练和测试，并采用多项指标进行量化评估。结果汇总于表格中（文中Table II）。
第四环节：数据分析流程。 研究采用标准的深度学习训练、验证和测试流程。使用预处理后的图像块及其对应标注（或由框提示模拟的标注）作为训练数据。通过损失函数（如交叉熵损失和Dice损失的组合）优化模型参数。在测试集上，模型输出的概率图通过阈值化得到最终的分割结果，并与真实标注（Ground Truth）进行比较，计算上述各项评估指标。此外，研究还提供了预测结果的热力图（Heatmap）可视化（图3, 图4），直观展示模型关注的区域，并与其它模型进行对比。
主要研究结果
研究通过系统的实验获得了有力且令人信服的结果，充分证明了MSAF-UNet方法的有效性。
首先，消融实验的结果清晰地揭示了模型各个组件的价值。数据表明，完整的MSAF-UNet框架（包含双分支预处理、MSAF模块和框提示）取得了最佳性能。例如，移除MSAF模块或框提示均会导致各项指标显著下降。这证明：1）结合传统图像处理进行纹理和颜色特征增强是有效的；2）MSAF模块通过多尺度注意力机制实现了优于普通拼接或简单注意力（如AFF）的特征融合；3）利用GHT从聚类结果生成的框提示，确实能够有效模拟交互信息，引导网络聚焦，从而提升分割精度，特别是在目标区域不明确或背景复杂的情况下。
其次，对比实验的结果更具说服力。在Camelyon16&17和EBHI-Seg数据集上，MSAF-UNet在准确率（Accuracy）、Dice系数、mIoU和AUC等多个关键评价指标上均超越了所有参与比较的先进模型。文章特别指出，MSAF-UNet取得了94.5%的平均准确率，相较于其他代表性模型平均提升了2.27%。这个提升幅度在医学图像分割领域是相当显著的。EBHI-Seg数据集包含六种不同组织类型，MSAF-UNet在其中也表现出稳定的高性能，这验证了模型良好的适应性和泛化能力。
最后，可视化结果提供了定性证据。文中展示的热力图（图3）清晰地显示，MSAF-UNet的预测概率在真实病变区域具有更高的响应值（图中显示为红色），且边界更为清晰。图4的对比更是直观地表明，在相同的测试图像上，MSAF-UNet生成的热力图比TransUNet、Swin-UNet等模型更准确、更集中地覆盖了癌症区域，而其他模型则可能出现误激活或激活区域分散的情况。
这些结果之间存在紧密的逻辑联系：消融实验的结果解释了“为什么MSAF-UNet有效”，即其各个设计组件都是必要的且贡献了正向增益；对比实验的结果则证明了“MSAF-UNet有多好”，即其综合性能达到了当前最优水平；可视化结果从人类视觉角度直观证实了前两项定量分析的结论。所有这些结果共同支撑了研究的最终结论。
研究结论与价值
本研究的结论是：作者成功提出并验证了一种集成了传统图像处理与多尺度注意力融合的鲁棒分割方法——MSAF-UNet。该方法能够有效地对WSI中的病变区域进行高精度分割。
其科学价值在于：1）提出了一种新颖的特征增强与融合范式：将可解释的传统图像处理算法（边缘检测、聚类、滤波）与数据驱动的深度学习模型有机结合，为特征工程提供了新思路。2）创新了网络架构：双分支编码器与MSAF模块的设计，实现了多尺度、多感受野特征的自适应高效融合。3）降低了标注依赖：通过K-means和GHT自动生成框提示来模拟交互输入，为在标注成本高昂的医学影像领域开发半监督或弱监督方法提供了可行方案。
其应用价值非常明确：MSAF-UNet在乳腺癌（Camelyon数据集）和结直肠癌（EBHI-Seg数据集）的病理图像分割上展示了卓越性能，能够为病理医生的诊断提供可靠的计算机辅助分析工具，提高诊断效率和一致性。同时，文章指出该方法有望推广到其他类型的图像分割任务中，具有广泛的应用潜力。
研究亮点与创新
本研究的亮点和创新点突出体现在以下几个方面：
特征增强策略的创新融合：不是将原始图像直接输入网络，而是主动使用拉普拉斯算子、Otsu算法、K-means聚类和中值滤波等传统图像处理技术，分别生成纹理增强和颜色增强的图像作为额外输入。这种“传统+深度学习”的混合策略，以较低的计算成本为网络提供了更具鉴别力的底层特征。
多尺度注意力融合模块（MSAF）的原创设计：该模块是对现有注意力特征融合（AFF）的改进。其“交叉拼接-分割-并行注意力加权”的流程设计精巧，有效避免了通道膨胀，同时通过全局与局部双分支注意力机制，实现了对特征图更精细、更具解释性的融合调控。
模拟交互式分割的实用方案：利用无监督的K-means聚类和GHT自动生成目标框，巧妙地模拟了交互式分割模型（如SAM）所需的提示输入。这在不增加人工标注负担的前提下，为模型提供了重要的位置先验，是一个既巧妙又实用的设计。
全面的实验验证与优异的性能：研究在多个权威公开数据集上进行了严格的消融实验和对比实验，量化指标提升显著（平均精度提升2.27%，达到94.5%），并且提供了丰富的可视化分析，从定性和定量两个角度全面证明了方法的优越性和鲁棒性。
其他有价值的内容
文章在引言部分对现有研究进行了梳理，指出了当前WSI分割方法在特征提取、泛化能力和标注依赖三方面的局限性，从而清晰地定位了自身工作的贡献。此外，作者在方法部分详细阐述了MSAF模块中多头注意力机制的计算公式（公式5）以及K-means的优化函数（公式2-4），体现了工作的严谨性。最后，所有的实验均遵循可复现性原则，明确了数据集划分、预处理步骤和评估指标，为后续研究提供了良好的基础。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问