类型a:学术研究报告
彭雨彤和梁凤梅(太原理工大学电子信息与光学工程学院)于2024年5月在《智能系统学报》(CAAI Transactions on Intelligent Systems)发表了题为“融合 cnn 和 vit 的乳腺超声图像肿瘤分割方法”的研究论文。该研究聚焦于医学图像处理领域,特别是乳腺超声图像中肿瘤区域的精确分割问题。
乳腺癌是我国女性发病率第一、死亡率第四的癌症,其早期检测和诊断对提高患者生存率至关重要。乳腺超声成像因其无创、无放射性、低成本的特点被广泛应用于临床检测,但由于肿瘤形状、大小差异大以及边界模糊等问题,乳腺超声图像的自动分割仍面临挑战。传统的卷积神经网络(Convolutional Neural Networks, CNN)虽然在局部特征提取方面表现出色,但在建模长距离依赖性和空间相关性上存在局限性;而视觉Transformer(Vision Transformer, ViT)虽能捕捉全局上下文信息,但需要大量数据进行预训练,且难以处理高分辨率图像。因此,本研究旨在结合CNN和ViT的优势,提出一种新的分割方法以提高乳腺超声图像肿瘤分割的精度。
该研究的工作流程包括以下几个主要步骤:
研究使用了两个公开的乳腺超声图像数据集——BUSI和Dataset B。其中,BUSI包含133张正常图像、437张良性肿瘤图像和210张恶性肿瘤图像,而Dataset B包含110张良性肿瘤图像和53张恶性肿瘤图像。为了增强数据量并减少过拟合,研究通过平移、随机水平翻转、随机裁剪等数据增广方法将BUSI扩充至3,235张图像,Dataset B扩充至815张图像。所有图像均被统一调整为224像素×224像素,并采用双线性插值技术和最近邻插值技术分别处理图像及其对应的真实标签(ground truth)。
研究提出的模型结构结合了改进的Swin Transformer模块和基于可形变卷积(Deformable Convolution, DC)的CNN编码器模块。具体来说: - 基于可形变卷积的CNN结构:采用U-Net的编码器层作为CNN典型结构,引入可形变卷积代替普通卷积,以适应肿瘤区域不规则形状并提升细节特征的学习能力。 - 改进的Swin Transformer结构:将原始的多头自注意力机制(Multi-Head Self Attention, MSA)改进为多头跳跃注意力机制(Multi-Head Skip Self Attention, MSKA),从而更好地利用不同阶段的特征映射。 - 交叉注意力机制:设计了一个基于交叉注意力机制的特征融合模块,用于融合来自CNN的局部特征和来自Swin Transformer的全局特征。
研究采用了混合损失函数,包括二元交叉熵损失(Binary Cross-Entropy Loss, BCE)和边界损失(Boundary Loss)。BCE用于解决肿瘤像素占比小导致的数据不平衡问题,而边界损失则通过施加额外的边界约束来提升分割精度。
实验在Ubuntu 20.04系统环境下进行,采用Python编程语言和PyTorch深度学习框架,在RTX3080 GPU上完成训练。输入图像大小为224像素×224像素,优化器为AdamW,初始学习率为0.0001,权重衰减为0.00005,批处理大小为4,最大训练轮次为80,000。
实验结果表明,所提方法在多个评价指标上显著优于现有经典算法。具体而言: - 在BUSI数据集上,所提方法的Dice系数达到0.825732,相比经典的U-Net提升了3.8412%;JC指数、准确度和召回率也分别提升了4.0431%、2.9635%和3.2362%。 - 在Dataset B数据集上,所提方法同样表现优异,Dice系数为0.825857,高于其他对比算法。 - 消融实验进一步验证了各个模块的有效性,尤其是可形变卷积模块对性能提升最为显著。
该研究成功地提出了一种融合CNN和ViT的乳腺超声图像肿瘤分割方法,通过改进的Swin Transformer、可形变卷积、交叉注意力机制以及混合损失函数的设计,有效解决了乳腺超声图像分割中的难点问题。研究不仅在分割精度上取得了显著提升,还为医学图像分割领域的算法开发提供了新思路。
尽管该方法在良性肿瘤分割上的效果优于恶性肿瘤,但仍具有较高的实际应用价值。未来的研究方向可以考虑结合分类任务进行多任务处理,或探索无监督分割方法以进一步提升模型的泛化能力。