分享自:

多模态多尺度学习网络在息肉分割中的高效应用

期刊:engineering applications of artificial intelligenceDOI:10.1016/j.engappai.2025.113282

这篇文档属于类型a,即报告了一项原创性研究的科学论文。以下是针对该研究的学术报告:

作者及机构
本研究由Yuyang Jie(广西民族大学物理与电子信息学院)、Wei Wang(中山大学附属第一医院超声医学科)、Wentao Shi和Zhenkun Lu(广西民族大学物理与电子信息学院/广西多模态信息智能感知处理与应用高校工程研究中心)合作完成,发表于2026年的期刊《Engineering Applications of Artificial Intelligence》(卷164,文章编号113282)。

学术背景
结直肠癌是全球癌症相关死亡的第二大原因,每年导致超过90万例死亡。肠息肉(polyp)的准确分割是预防结直肠癌进展的关键步骤,但现有方法在复杂场景中的鲁棒性仍需提升。传统方法依赖边缘纹理等低层特征,而基于U-Net的改进模型和Transformer的引入虽提升了全局特征提取能力,但仍存在多尺度特征融合效率低、对医学图像中不规则目标的适应性不足等问题。本研究旨在提出一种新型网络架构,通过融合多通道(multi-channel)和多尺度(multiscale)特征,实现更高效的息肉分割。

研究流程与方法
1. 网络架构设计
研究提出名为MML-Net(Multimodal and Multiscale Learning Network)的模型,基于Pyramid Vision Transformer(PVT)编码器架构,包含三个核心模块:
- 多通道特征融合模块(MCF):通过动态权重分配机制(含可学习系数α和Sigmoid函数)实现跨层特征自适应融合,采用分块并行处理提升计算效率。
- 多尺度并行注意力模块(MPA):使用3×3、5×5、7×7的深度可分离卷积(DWConv)并行提取多尺度特征,结合通道注意力(CBAM)和门控注意力机制增强病变形态多样性建模能力。
- 线性注意力模块(LA):采用ReLU激活替代Softmax,以较低计算成本增强全局特征。

  1. 实验设计

    • 数据集:训练集整合CVC-ClinicDB(550张)和Kvasir-Seg(900张)共1450张图像;验证集包括CVC-ClinicDB(62张)、Kvasir-Seg(100张)、CVC-ColonDB(380张)、ETIS-LaribPolypDB(196张)和EndoScene(60张)。
    • 评估指标:采用Dice系数、IoU、MAE、加权F-measure等6项指标,重点关注区域级相似性(Dice/IoU)和像素级误差(MAE)。
    • 训练细节:使用PyTorch框架,输入图像统一缩放至352×352,采用多尺度增强(0.751.0/1.25)和AdamW优化器(学习率2.5e-5),训练150个epoch。
  2. 数据分析
    通过五折交叉验证比较12种模型(包括U-Net、UACANet、Polyp-PVT等),采用Matlab评估工具生成定量结果。通过热力图可视化分析不同层级特征响应,验证分层融合策略的有效性。

主要结果
1. 整体性能
MML-Net在五组数据集上的加权平均Dice系数达0.851,较第二名EMCAD(0.840)提升1.31%,参数量仅34.4M,计算量13.9 GFLOPs。其中:
- 内部数据集(CVC-ClinicDB/Kvasir):Dice分别为0.934和0.925,较Polyp-PVT提升0.7%。
- 外部数据集(CVC-ColonDB/ETIS):Dice达0.830和0.813,较第二名提升1.59%,显示强泛化能力。

  1. 模块贡献
    消融实验表明:

    • 移除MCF导致Dice下降0.019(95% CI: -0.0190~-0.0053);
    • 移除MPA使ETIS数据集IoU降低2.4%;
    • LA模块将小目标分割错误率减少12%。
  2. 可视化分析
    特征热力图显示,浅层网络捕获息肉轮廓,中层细化边界,深层实现精确定位,验证了分层融合策略的有效性(图8)。与EMCAD和Polyp-PVT相比,MML-Net在模糊边界场景中的误报率降低18%(图7)。

结论与价值
1. 科学价值
- 提出动态权重分配机制,解决了传统金字塔结构中固定权重导致的特征融合僵化问题;
- 通过并行多尺度卷积替代空洞卷积,避免网格伪影(grid artifacts),提升不规则病变的表征能力。

  1. 应用价值
    • 模型轻量化(13.9 GFLOPs)适合嵌入式医疗设备部署,可辅助内镜实时诊断;
    • 在资源有限的基层医疗机构中,可作为决策支持工具提升筛查效率。

研究亮点
1. 方法创新:首次将PVTv2骨架网络与多通道/多尺度模块结合,设计MCF和MPA两个可插拔模块;
2. 性能突破:在最具挑战性的ETIS数据集上Dice系数首次突破0.81;
3. 临床意义:减少健康组织误判率(较基线模型下降23%),对早期癌变筛查至关重要。

其他发现
EndoScene数据集因与训练集存在部分同源,模型性能普遍偏高(Dice>0.89),提示未来需构建更具差异化的外部验证集。此外,模型对极模糊边界的息肉仍存在分割不足(图8第4行),这将是后续研究重点。

(注:文中所有专业术语如DWConv(深度可分离卷积)、CBAM(卷积块注意力模块)等均在首次出现时标注英文原词,符合要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com