乳腺癌超声图像分割的多尺度网格平均池化通道注意力模块研究
作者及发表信息
本研究由韩国大邱庆北科学技术院(DGIST)信息与通信工程系的Haeyun Lee(学生会员,IEEE)和Jae Youn Hwang(会员,IEEE),以及成均馆大学生物医学工程系的Jinhyoung Park(会员,IEEE)共同完成。论文发表于《IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control》期刊,并于2020年正式收录(DOI: 10.1109/TUFFC.2020.2972573)。
学术背景
乳腺癌是全球女性第二大死亡原因,超过8%的女性一生中可能罹患该疾病。早期精准诊断是降低死亡率的关键。超声成像因其无辐射、安全性高,成为乳腺肿瘤筛查的重要工具,但其图像存在斑点噪声和低对比度问题,依赖放射科医师的经验。传统计算机辅助诊断(CAD)系统基于全卷积网络(FCN)、SegNet和U-Net等深度学习模型,但在超声图像分割中性能有限,主要因卷积操作仅利用局部信息而忽略全局空间信息。为此,本研究提出一种结合多尺度网格平均池化(Multi-Scale Grid Average Pooling, MSGRAP)的通道注意力模块,旨在通过同时捕获局部和全局信息,提升乳腺癌超声图像分割的精度。
研究流程与方法
1. 问题定义与模块设计
- 核心问题:现有通道注意力模块(如Hu等人提出的SE模块)仅通过全局平均池化(Global Average Pooling, GAP)提取全局信息,但语义分割需兼顾局部细节。
- 创新模块:
- 网格平均池化(GRAP):将特征图划分为k×k网格(如10×10),对每个网格计算均值,保留局部统计信息(公式4)。
- 多尺度MSGRAP:随着网络层深增加,网格尺寸逐层减半(如10×10→8×8→6×6),适配不同层级的特征图分辨率。
- 网络架构:基于VGGNet改进,编码器-解码器结构,包含:
- 编码器:每组卷积层后插入MSGRAP模块,通过1×1卷积和ReLU/Sigmoid激活生成通道权重(公式5-6)。
- 解码器:使用转置卷积(4×4,步长2)上采样,仅连接高层特征(避免低层噪声干扰)。
实验设计
性能评估指标
主要结果
1. 定量分析
- Ours-MSGRAP在F1分数(0.7658)、全局准确率(97.794%)、IoU(0.6226)和AUC-PR(0.8149)上均优于对比模型(表III)。例如,F1分数较PSPNet-18提升1.8%,假阳性率降低至0.0134。
- 消融实验验证模块有效性:
- Ours-GAP(SE模块):仅用全局信息,F1为0.7205。
- Ours-GRAP(单尺度网格):引入局部信息后F1提升至0.7445。
- Ours-MSGRAP:多尺度策略进一步将F1提高至0.7658,显示局部与全局信息融合的优势。
结论与价值
1. 科学意义
- 提出首个针对超声图像特性的多尺度通道注意力机制,解决传统方法全局与局部信息失衡的问题。
- 通过网格池化与多尺度策略,显著提升模型对微小肿瘤和异质性区域的敏感性。
应用价值
局限性
研究亮点
1. 方法创新:MSGRAP模块首次将多尺度局部统计信息引入通道注意力,超越SE模块的全局池化局限。
2. 工程优化:采用组归一化(Group Normalization)替代批归一化(Batch Normalization),解决小批量训练时的性能下降问题(表I)。
3. 临床适配:网络设计避免低层特征直接连接,有效抑制超声图像噪声干扰(表II)。
其他贡献
- 开源代码与训练协议(基于PyTorch),推动可重复研究。
- 提出PR曲线优先于ROC曲线的评估标准,更适配医学图像数据不平衡场景(图6)。
(注:全文术语首次出现均标注英文,如“全局平均池化(Global Average Pooling, GAP)”)