分享自:

Trans2Unet: 用于细胞核语义分割的神经融合模型

期刊:2022 11th International Conference on Control, Automation and Information Sciences (ICCAIS)

关于Trans2UNet:用于细胞核语义分割的神经融合架构的学术研究报告

一、 研究作者、机构与发表信息 本研究的核心作者包括Dinh-Phu Tran, Quoc-Anh Nguyen, Van-Truong Pham以及通讯作者Thi-Thao Tran。所有作者均隶属于越南河内科技大学电气与电子工程学院的自动化工程系。这项研究以题为“trans2unet: neural fusion for nuclei semantic segmentation”的论文形式,发表于2022年举办的“第11届控制、自动化与信息科学国际会议”(The 11th International Conference on Control, Automation and Information Sciences, ICCAIS)。该会议由IEEE(电气电子工程师学会)出版,论文收录于会议论文集中。

二、 学术背景与研究目标 本研究属于计算机视觉与医学图像处理交叉领域,具体聚焦于数字病理学中的细胞核语义分割任务。细胞核分割是癌症诊断等临床应用的基础步骤,其目标是从组织病理学图像中精确分离出独立的细胞核。然而,该任务面临的核心挑战在于细胞核经常存在重叠区域,这使得准确分离变得异常复杂。

近年来,基于深度学习的方法在该领域取得了显著进展。其中,U-Net以其编码器-解码器结构和跳跃连接(skip connections)在医学图像分割中表现出色。然而,以U-Net为代表的卷积神经网络(CNN)模型受限于卷积操作的局部性,难以有效建模图像中长距离的依赖关系。另一方面,基于Transformer的模型(如Vision Transformer, ViT)因其全局计算能力在计算机视觉任务中崭露头角。TransUNet便是将CNN与Transformer结合的早期成功尝试,它利用CNN提取局部空间特征,同时利用Transformer编码全局上下文信息。然而,Transformer架构本身缺乏对低层次细节的捕捉能力,可能导致局部特征信息提取不足。

基于上述背景,本研究旨在克服现有模型的局限性,提出一种更强大、更高效的细胞核分割架构。具体研究目标是:通过有机结合U-Net和TransUNet的优势,构建一个能够同时捕获精细局部特征和全局上下文信息的双分支网络,以提升在复杂重叠细胞核场景下的分割性能。此外,研究还计划对TransUNet分支进行优化,通过引入一种计算高效的模块来进一步增强模型能力。

三、 研究详细工作流程 本研究主要包括模型架构设计、模块创新、实验验证与性能评估三个核心流程。研究遵循了提出方法、实现细节、数据集准备、训练配置、对比实验与结果分析的完整科研流程。

  1. 核心模型架构设计:Trans2UNet 本研究提出的核心创新是一种名为Trans2UNet的新型双分支融合架构。其工作流程如下:

    • 输入与分支处理:对于一张输入的组织病理学图像,模型同时将其馈送至两个独立的分支进行处理。
    • U-Net分支:第一个分支是一个经过修改的U-Net网络。具体而言,去除了原始U-Net的最后一个卷积层。该分支的主要作用是高效地结合输入图像不同空间区域的特征,并更精确地定位感兴趣区域(即细胞核),它负责提供丰富的局部空间信息和细节特征。
    • TransUNet-WASP-KC分支:第二个分支是本研究改进后的TransUNet模型。其工作流更为复杂: a. CNN特征提取:输入图像首先通过一个CNN模块(研究中采用ResNet-50作为骨干网络)进行初步特征提取。 b. WASP-KC模块处理:接着,特征被送入一个名为“带跳跃连接的瀑布式空洞空间池化”(Waterfall Atrous Spatial Pooling with Skip Connection, WASP-KC)的新模块。该模块是本研究的另一个重要贡献,它受到WASP模块的启发,并集成了密集连接(DenseNet思想)以增强特征复用。WASP-KC模块由四个卷积单元以瀑布式级联结构组成,每个单元包含一个3x3卷积和两个1x1卷积块。模块内通过跳跃连接和水平方向的信息共享,渐进式地提取具有更大感受野(Field-of-View, FOV)的多尺度特征,同时有效减少了参数数量和计算开销。 c. ViT全局编码:经过WASP-KC模块增强后的特征图,被转换为序列形式并输入到视觉Transformer(ViT,研究中采用ViT-Base变体)编码器中。ViT通过其多头自注意力机制(Multi-Head Self-Attention, MHSA)建模特征的全局依赖关系,为分割提供上下文信息。 d. 解码与上采样:最后,经过ViT编码的全局特征再通过解码器路径进行上采样,逐步恢复空间分辨率。
    • 特征融合与输出:两个分支处理完毕后,它们输出的特征图在通道维度上进行拼接(Concatenation)。融合后的特征再经过一个额外的卷积块进行整合,最终生成预测的分割掩码图。这种简单的特征融合策略旨在使模型兼具U-Net的精确局部定位能力和TransUNet的全局上下文理解能力。
  2. 损失函数与评估指标

    • 损失函数:为了优化模型,研究采用了结合二元交叉熵损失(Binary Cross-Entropy Loss, BCE)和Dice损失(Dice Loss)的复合损失函数。BCE损失衡量预测概率分布与真实标签分布之间的差异,适用于像素级分类。Dice损失则直接优化分割区域的重叠度,对医学图像中常见的类别不平衡问题更为鲁棒。
    • 评估指标:研究采用医学图像分割领域两个最流行的指标进行评估:戴斯相似系数(Dice Similarity Coefficient, DSC)和交并比(Intersection over Union, IoU)。DSC衡量预测区域与真实区域的重叠程度,IoU则计算两者的交集与并集之比。这两个指标的值域均为[0, 1],值越高表示分割性能越好。
  3. 实验设置与数据分析流程

    • 数据集:研究使用了两个公开的医学图像数据集来评估模型性能。
      • 2018数据科学碗挑战赛数据集(2018 Data Science Bowl Challenge Dataset):包含670张细胞核原始图像及其对应的标注掩码。研究按80%(训练集)、10%(验证集)、10%(测试集)的比例进行划分。
      • GlaS数据集(Gland Segmentation Dataset):包含165张显微图像及腺体掩码标注,用于展示模型的泛化能力。按85张训练、80张测试进行划分。
    • 实现细节:所有实验基于PyTorch框架,使用NVIDIA K80 GPU进行。输入图像统一调整为256x256分辨率。采用Adam优化器,初始学习率设为0.0003,使用Dropout(p=0.2)防止过拟合,并采用了学习率衰减策略。批量大小设置为10,总训练轮数为300轮。
    • 对比与分析:研究将Trans2UNet与多个在相同数据集上表现优异的先进模型进行对比,包括SSFormer-L、MSRF-Net、DoubleU-Net、FCN、原始U-Net、Res-UNet、Axial Attention U-Net以及KIU-Net等。通过对比DSC和IoU指标,以及模型参数量,全面评估所提方法的有效性与效率。此外,研究还设置了消融实验,比较了原始TransUNet、集成原始WASP模块的Trans2UNet以及集成WASP-KC模块的Trans2UNet的性能,以验证WASP-KC模块的有效性。

四、 主要研究结果 1. 在2018数据科学碗数据集上的性能:如表I所示,Trans2UNet取得了极具竞争力的结果。其DSC达到0.9225,IoU达到0.8613。与表现最好的对比模型SSFormer-L(DSC: 0.9230, IoU: 0.8614)相比,性能几乎持平,但Trans2UNet提供了一个不同的、基于双分支融合的架构思路。同时,Trans2UNet的性能显著优于原始的TransUNet模型(DSC: 0.9027, IoU: 0.8413),这直接证明了将U-Net与TransUNet融合的有效性。然而,Trans2UNet的参数量达到1.1亿(110M),显著高于SSFormer-L的6620万参数,这主要归因于ViT-Base模型庞大的参数量。研究也指出,这是未来需要改进的一个方向。

  1. WASP-KC模块的贡献(消融实验结果):如表II所示,消融实验清晰地展示了WASP-KC模块的价值。

    • 原始TransUNet的DSC和IoU分别为0.9027和0.8413。
    • 在Trans2UNet中集成原始WASP模块后,性能提升至DSC 0.9150和IoU 0.8499。
    • 当使用改进后的WASP-KC模块时,性能得到进一步提升,达到DSC 0.9225和IoU 0.8613。 这一系列结果有力地证明,WASP-KC模块通过其密集连接和瀑布式结构,比原始WASP模块更能有效地提取多尺度特征并促进信息流动,从而显著提升了Trans2UNet的整体分割精度。
  2. 在GlaS数据集上的泛化能力:如表III所示,Trans2UNet在GlaS数据集上也取得了优异的表现,DSC为0.8984,IoU为0.8254,大幅超越了FCN、U-Net、Res-UNet、Axial Attention U-Net等基线模型,与KIU-Net相比也表现出优势。这一结果初步表明,Trans2UNet架构不仅针对细胞核分割有效,也可能适用于其他类型的医学图像分割任务(如腺体分割),具有一定的泛化潜力。

  3. 训练过程与定性结果:研究提供的训练曲线图显示,模型的损失值以及DSC、IoU指标在大约100个训练周期后趋于收敛并保持稳定,表明训练过程是成功的且未出现过拟合。此外,论文展示的分割结果可视化图(图5)直观地表明,Trans2UNet的预测结果与真实标注(Ground Truth)高度吻合,即使在细胞核密集、存在重叠的困难区域,也能实现较为准确的分离,定性评估结果良好。

五、 研究结论与价值 本研究成功提出并验证了一种名为Trans2UNet的新型双分支神经网络架构,用于解决组织病理学图像中的细胞核语义分割难题。通过将擅长捕捉局部细节的U-Net与擅长建模全局上下文的TransUNet进行特征融合,并结合创新的WASP-KC模块以高效提取多尺度特征,该模型在公开基准数据集上达到了与当前先进模型相媲美的分割精度。

研究的科学价值在于:第一,它验证了在医学图像分割任务中,融合基于CNN的局部特征提取器和基于Transformer的全局上下文建模器是一种行之有效的策略,为后续的架构设计提供了新思路。第二,所提出的WASP-KC模块是对现有空洞空间金字塔池化类模块的一种有效改进,其瀑布式级联与密集连接设计在提升性能的同时控制了计算复杂度,具有参考价值。第三,详细的实验对比与消融分析为领域内的方法比较提供了可靠的数据支持。

其应用价值体现在:所开发的Trans2UNet模型能够更准确地对重叠细胞核进行分割,这对于自动化病理分析、癌症定量诊断等实际应用具有重要意义,有助于提高诊断的客观性和效率。

六、 研究亮点 1. 架构创新性:提出了首个将经典U-Net与新兴TransUNet进行并行特征融合的“Trans2UNet”架构,创造性地结合了CNN的局部精确性和Transformer的全局建模能力。 2. 模块创新性:设计并集成了WASP-KC模块,该模块通过引入密集连接的跳跃连接,改进了原有的WASP模块,在提升多尺度特征提取能力的同时,保持了较高的计算效率。 3. 性能竞争力:在权威的2018数据科学碗挑战赛数据集上,取得了与最先进模型(SSFormer-L)不相上下的分割精度(DSC 0.9225, IoU 0.8613),同时展示了优异的泛化能力(在GlaS数据集上DSC 0.8984)。 4. 全面的实验验证:研究不仅进行了广泛的横向对比,还与多个SOTA模型比较,还设置了深入的纵向消融实验,清晰揭示了双分支融合和WASP-KC模块各自的贡献,论证扎实。

七、 其他有价值内容 1. 开源与可复现性:虽然原文未明确提及代码是否开源,但论文详细列出了所有实现细节,包括框架(PyTorch)、骨干网络(ResNet-50, ViT-Base)、超参数(学习率、批量大小等)和数据集划分比例,这为其他研究者复现和进一步研究提供了充分的信息。 2. 对局限性的坦诚:作者明确指出了Trans2UNet模型参数量较大的问题(主要源于ViT),并将其作为未来需要改进的方向。这种对模型缺点的客观讨论体现了研究的严谨性。 3. 对未来工作的展望:研究在结论部分指出,该架构不仅可用于细胞核分割,也可能适用于更广泛的图像分割任务,这为后续研究指明了潜在的应用拓展方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com