分享自:

基于CNN-ViT的深度学习模型在早期皮肤癌诊断中的应用

期刊:biomedical signal processing and controlDOI:10.1016/j.bspc.2025.107627

基于CNN-ViT混合架构的深度学习模型在早期皮肤癌诊断中的应用研究

作者及发表信息

本研究由Ishak Pacal(土耳其伊迪尔大学计算机工程系)、Burhanettin Ozdemir(沙特阿拉伯阿尔费萨尔大学商学院)、Javanshir Zeynalov与Huseyn Gasimov(阿塞拜疆纳希切万国立大学电子与信息技术系)以及Nurettin Pacal(土耳其伊迪尔大学生物学系)合作完成,发表于Biomedical Signal Processing and Control期刊2025年第104卷,文章编号107627。

学术背景

皮肤癌是全球重大公共卫生问题,早期诊断对治疗效果至关重要。然而,由于皮肤癌亚型多样、影像特征复杂,传统诊断方法面临准确性不足的挑战。本研究针对以下科学问题展开:
1. 医学图像分析(Medical Image Analysis)领域的局限性:现有卷积神经网络(CNN, Convolutional Neural Network)在长程依赖建模上存在缺陷,而视觉变换器(ViT, Vision Transformer)对局部特征的捕捉不足。
2. 临床需求:ISIC 2019和HAM10000数据集中存在的类别不平衡(如黑色素痣“nv”样本数达12,875例,而血管病变“vasc”仅253例)导致模型泛化能力下降。

研究团队提出了一种基于Metaformer架构的新型混合模型,通过焦点自注意力(Focal Self-Attention)机制替代传统自注意力,旨在提升关键区域识别能力并降低噪声干扰。

研究方法与流程

1. 数据集与预处理

研究采用两个公开基准数据集:
- ISIC 2019:包含25,331张图像,覆盖8类皮肤病变(黑色素瘤“mel”、基底细胞癌“bcc”等),分辨率576×768至1024×1024像素。
- HAM10000:10,015张图像,涵盖7类(缺少鳞状细胞癌“scc”)。

数据划分策略
- 训练集(70%)、验证集(20%)、测试集(10%)
- 数据增强:采用缩放、颜色抖动、Mix-up和水平翻转,缓解类别不平衡问题。

2. 模型架构设计

核心创新为CAFormer-S24模型,其工作流程分为四个阶段:
1. Patch Embedding:通过4×4卷积将输入图像(224×224)分割为嵌入向量(公式1)。
2. 局部特征提取(阶段1-2):使用深度可分离卷积(Depthwise Separable Convolution,公式2-3)处理56×56和28×28特征图。
3. 全局依赖建模(阶段3-4):
- 在14×14和7×7特征图上应用焦点自注意力机制(公式8),结合局部窗口注意力(公式6)与全局池化注意力(公式7)。
- 通过缩放CAFormer-S18的层数配置(从[3,3,9,3]增至[4,4,12,4])提升特征提取能力。

3. 实验设置

  • 硬件:NVIDIA RTX 3090 GPU,Intel i7-14700K CPU,64GB DDR5内存
  • 超参数:学习率0.01(余弦退火调度),动量0.9,权重衰减2e-5
  • 对比模型:包括10种CNN(如ResNet50、ConvNeXt-Base)和20种ViT(如SwinV2-Base、DeiT3-Base)

主要研究结果

1. ISIC 2019数据集性能

  • 总体指标:准确率0.9254,精确率0.9041,召回率0.8768,F1分数0.8886
  • 类别分析
    • 黑色素痣“nv”表现最佳(F1=0.9562,1288例)
    • 光化性角化病“ak”因样本量少(87例)导致召回率最低(0.7126)
  • 模型对比:超越ConvNeXt-Base(准确率0.9025)和SwinV2-Base(F1=0.8838)

2. HAM10000数据集验证

  • 总体指标:准确率0.9501,F1分数0.9334
  • 血管病变“vasc”实现全指标满分(15例),验证模型对小样本类的鲁棒性

3. 消融实验

  • 焦点自注意力的贡献:将CAFormer-S18的准确率从90.56%提升至92.54%
  • 参数量优化:仅35.01M参数,推理速度0.324ms/图像,适合移动端部署

研究结论与价值

科学价值

  1. 方法论创新:首次将Metaformer框架引入皮肤癌诊断,证明混合架构在医学图像中的优越性。
  2. 注意力机制改进:焦点自注意力通过局部-全局特征协同,解决了传统ViT在细粒度分类中的局限性。

临床应用价值

  • 实时诊断:轻量化设计(7.132 GFLOPs)支持临床即时检测。
  • 多中心适用性:在ISIC和HAM10000上的泛化性能表明模型可适应不同采集设备的数据。

研究亮点

  1. 跨架构性能突破:在相同训练条件下,同时超越CNN和ViT的30种先进模型。
  2. 可解释性增强:通过混淆矩阵(图5、图8)明确展示各类别的误判模式,如黑色素瘤“mel”易与良性病变混淆的问题。
  3. 开源促进协作:实验代码与预处理流程公开,推动医学AI社区的可重复研究。

其他重要发现

  • 数据不平衡的解决方案:Mix-up增强使少数类“df”的F1分数从0.812提升至0.9333。
  • 计算效率平衡:模型参数量仅为最大对比模型CAFormer-B36(95.71M)的36.6%,但精度提高2.8%。

本研究为皮肤癌的自动化诊断设立了新基准,其混合架构设计思路可扩展至其他医学影像分析领域。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com