本研究由Ishak Pacal(土耳其伊迪尔大学计算机工程系)、Burhanettin Ozdemir(沙特阿拉伯阿尔费萨尔大学商学院)、Javanshir Zeynalov与Huseyn Gasimov(阿塞拜疆纳希切万国立大学电子与信息技术系)以及Nurettin Pacal(土耳其伊迪尔大学生物学系)合作完成,发表于Biomedical Signal Processing and Control期刊2025年第104卷,文章编号107627。
皮肤癌是全球重大公共卫生问题,早期诊断对治疗效果至关重要。然而,由于皮肤癌亚型多样、影像特征复杂,传统诊断方法面临准确性不足的挑战。本研究针对以下科学问题展开:
1. 医学图像分析(Medical Image Analysis)领域的局限性:现有卷积神经网络(CNN, Convolutional Neural Network)在长程依赖建模上存在缺陷,而视觉变换器(ViT, Vision Transformer)对局部特征的捕捉不足。
2. 临床需求:ISIC 2019和HAM10000数据集中存在的类别不平衡(如黑色素痣“nv”样本数达12,875例,而血管病变“vasc”仅253例)导致模型泛化能力下降。
研究团队提出了一种基于Metaformer架构的新型混合模型,通过焦点自注意力(Focal Self-Attention)机制替代传统自注意力,旨在提升关键区域识别能力并降低噪声干扰。
研究采用两个公开基准数据集:
- ISIC 2019:包含25,331张图像,覆盖8类皮肤病变(黑色素瘤“mel”、基底细胞癌“bcc”等),分辨率576×768至1024×1024像素。
- HAM10000:10,015张图像,涵盖7类(缺少鳞状细胞癌“scc”)。
数据划分策略:
- 训练集(70%)、验证集(20%)、测试集(10%)
- 数据增强:采用缩放、颜色抖动、Mix-up和水平翻转,缓解类别不平衡问题。
核心创新为CAFormer-S24模型,其工作流程分为四个阶段:
1. Patch Embedding:通过4×4卷积将输入图像(224×224)分割为嵌入向量(公式1)。
2. 局部特征提取(阶段1-2):使用深度可分离卷积(Depthwise Separable Convolution,公式2-3)处理56×56和28×28特征图。
3. 全局依赖建模(阶段3-4):
- 在14×14和7×7特征图上应用焦点自注意力机制(公式8),结合局部窗口注意力(公式6)与全局池化注意力(公式7)。
- 通过缩放CAFormer-S18的层数配置(从[3,3,9,3]增至[4,4,12,4])提升特征提取能力。
本研究为皮肤癌的自动化诊断设立了新基准,其混合架构设计思路可扩展至其他医学影像分析领域。