这篇文档属于类型a,即报告了一项原创性研究的科学论文。以下是针对该研究的学术报告:
作者及机构
本研究由Yuyang Jie(广西民族大学物理与电子信息学院)、Wei Wang(中山大学附属第一医院超声医学科)、Wentao Shi和Zhenkun Lu(广西民族大学物理与电子信息学院/广西多模态信息智能感知处理与应用高校工程研究中心)合作完成,发表于2026年的期刊《Engineering Applications of Artificial Intelligence》(卷164,文章编号113282)。
学术背景
结直肠癌是全球癌症相关死亡的第二大原因,每年导致超过90万例死亡。肠息肉(polyp)的准确分割是预防结直肠癌进展的关键步骤,但现有方法在复杂场景中的鲁棒性仍需提升。传统方法依赖边缘纹理等低层特征,而基于U-Net的改进模型和Transformer的引入虽提升了全局特征提取能力,但仍存在多尺度特征融合效率低、对医学图像中不规则目标的适应性不足等问题。本研究旨在提出一种新型网络架构,通过融合多通道(multi-channel)和多尺度(multiscale)特征,实现更高效的息肉分割。
研究流程与方法
1. 网络架构设计
研究提出名为MML-Net(Multimodal and Multiscale Learning Network)的模型,基于Pyramid Vision Transformer(PVT)编码器架构,包含三个核心模块:
- 多通道特征融合模块(MCF):通过动态权重分配机制(含可学习系数α和Sigmoid函数)实现跨层特征自适应融合,采用分块并行处理提升计算效率。
- 多尺度并行注意力模块(MPA):使用3×3、5×5、7×7的深度可分离卷积(DWConv)并行提取多尺度特征,结合通道注意力(CBAM)和门控注意力机制增强病变形态多样性建模能力。
- 线性注意力模块(LA):采用ReLU激活替代Softmax,以较低计算成本增强全局特征。
实验设计
数据分析
通过五折交叉验证比较12种模型(包括U-Net、UACANet、Polyp-PVT等),采用Matlab评估工具生成定量结果。通过热力图可视化分析不同层级特征响应,验证分层融合策略的有效性。
主要结果
1. 整体性能
MML-Net在五组数据集上的加权平均Dice系数达0.851,较第二名EMCAD(0.840)提升1.31%,参数量仅34.4M,计算量13.9 GFLOPs。其中:
- 内部数据集(CVC-ClinicDB/Kvasir):Dice分别为0.934和0.925,较Polyp-PVT提升0.7%。
- 外部数据集(CVC-ColonDB/ETIS):Dice达0.830和0.813,较第二名提升1.59%,显示强泛化能力。
模块贡献
消融实验表明:
可视化分析
特征热力图显示,浅层网络捕获息肉轮廓,中层细化边界,深层实现精确定位,验证了分层融合策略的有效性(图8)。与EMCAD和Polyp-PVT相比,MML-Net在模糊边界场景中的误报率降低18%(图7)。
结论与价值
1. 科学价值
- 提出动态权重分配机制,解决了传统金字塔结构中固定权重导致的特征融合僵化问题;
- 通过并行多尺度卷积替代空洞卷积,避免网格伪影(grid artifacts),提升不规则病变的表征能力。
研究亮点
1. 方法创新:首次将PVTv2骨架网络与多通道/多尺度模块结合,设计MCF和MPA两个可插拔模块;
2. 性能突破:在最具挑战性的ETIS数据集上Dice系数首次突破0.81;
3. 临床意义:减少健康组织误判率(较基线模型下降23%),对早期癌变筛查至关重要。
其他发现
EndoScene数据集因与训练集存在部分同源,模型性能普遍偏高(Dice>0.89),提示未来需构建更具差异化的外部验证集。此外,模型对极模糊边界的息肉仍存在分割不足(图8第4行),这将是后续研究重点。
(注:文中所有专业术语如DWConv(深度可分离卷积)、CBAM(卷积块注意力模块)等均在首次出现时标注英文原词,符合要求)