本研究的作者为Anita Murmu与Piyush Kumar,均来自印度国立理工学院帕特纳分校计算机科学与工程系。该研究成果以题为“DLRFNet: Deep learning with random forest network for classification and detection of malaria parasite in blood smear”的论文形式,于2024年1月10日在线发表于《Multimedia Tools and Applications》期刊(2024年卷83期,页码63593–63615)。该期刊是专注于多媒体工具与应用领域的国际学术期刊。
本项研究属于医学图像分析与人工智能交叉学科领域,具体聚焦于利用深度学习方法辅助疟疾诊断。疟疾是由疟原虫引起的致命性疾病,传统诊断依赖于技术人员通过显微镜人工检查血液涂片,此过程耗时、易疲劳且结果受人员技能水平影响大,导致诊断效率低下且可能存在误诊。世界卫生组织(WHO)2020年报告显示,因疟疾识别和治疗失败导致的死亡人数显著增加,凸显了开发快速、准确自动化诊断工具的紧迫性。近年来,随着计算机性能提升和深度学习技术的突破,利用卷积神经网络(Convolutional Neural Network, CNN)等算法分析数字化的血液涂片图像,已成为计算机辅助诊断(Computer-Aided Diagnosis, CAD)疟疾的研究热点。然而,该任务面临诸多挑战:公开可用的高质量标注数据集有限;疟原虫在不同发育阶段形态多变,且不同类别的寄生虫形态相似;血液涂片图像质量可能不佳,存在对比度低、边界模糊等问题;样本类别可能不平衡。这些因素导致传统的或标准的深度学习模型在疟原虫分类与检测中准确率受限、易过拟合。因此,本研究旨在解决上述挑战,提出一种新颖的混合模型架构,以实现对薄血涂片图像中疟原虫更精准、更鲁棒的分类与检测,从而为自动化疟疾诊断系统的发展提供技术支持。
本研究的工作流程详细且系统,主要包括以下几个核心步骤:
第一,数据准备与预处理。 研究使用了来自美国国立医学图书馆(NLM)、Kaggle平台以及美国国立卫生研究院(NIH)的公开数据集。该数据集总计包含27,558张细胞显微图像,其中感染(寄生)与未感染细胞数量各为13,779张,达到了类别平衡。图像尺寸统一为224×224像素。在预处理阶段,研究人员对图像进行了标准化,将像素值从[0,255]范围缩放至[0,1]区间,以利于模型训练时的梯度稳定和收敛。随后,将数据集随机划分为三部分:80%用于模型训练,剩余的20%再平均分为测试集和验证集(各占10%)。此外,研究还采用了数据增强技术,如图像旋转,以增加训练数据的多样性,赋予模型方向不变性,并防止过拟合。阈值处理也被用于降噪和突出感兴趣区域。
第二,提出并构建DLRFNet混合模型架构。 这是本研究的核心创新。模型整体框架如图1和图6所示,其核心思想是将深度卷积神经网络(Deep-CNN)与随机森林(Random Forest, RF)分类器相结合。具体工作流程如下: 1. 特征提取骨干网络:采用修改后的VGG16架构作为特征提取器。输入图像首先经过一系列卷积层、池化层和修正线性单元(ReLU)激活函数进行深层次特征学习。 2. 关键的架构修改: * 全局平均池化(Global Average Pooling, GAP):在特征提取网络的末端,研究者进行了一项新颖的修改,即使用全局平均池化层(GAP)替代传统的全连接层(Fully Connected Layer)之前的展平(Flatten)操作。GAP层对最后一个卷积层输出的每个特征图进行全局平均,直接生成一个固定长度的特征向量。这种方法不仅减少了模型参数、防止过拟合,更重要的是,它为后续可视化感染区域提供了可能,因为每个特征图对应于原图特定区域的激活。 * 随机森林分类器:在获得GAP输出的特征向量后,研究弃用了CNN中常见的Softmax分类层,转而引入随机森林算法作为分类器。随机森林是一种集成学习算法,通过构建多棵决策树并汇总其结果进行决策。此举旨在利用随机森林处理非线性可分问题的强大能力,并进一步抑制过拟合,从而提升分类的准确性和鲁棒性。整个混合模型被称为Deep-CNN-RF。 3. 感染区域边缘检测与可视化:为了辅助分析和解释模型的决策,研究在流程中整合了Canny边缘检测算法,用于精确识别疟原虫感染区域的边界。同时,利用GAP层的特性,结合梯度信息,实现了对图像中感染区域的定位可视化(如图8所示),这有助于理解模型关注的重点区域,增加了模型的可解释性。
第三,模型训练与实验设置。 实验在配置为Intel Core i5 CPU、8GB RAM的计算机上进行,使用TensorFlow、Keras库和Python 3.8.1实现。模型训练共进行160个周期(epochs),使用Adam优化器,学习率设置为0.0001,损失函数为二元交叉熵(binary cross-entropy loss)。训练过程监控训练集和验证集的准确率与损失。
第四,性能评估与对比分析。 研究采用一系列标准指标全面评估模型性能,包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1-score)和均方误差(Mean Square Error, MSE)。评估基于混淆矩阵计算,其中真正例(TP)、真负例(TN)、假正例(FP)、假负例(FN)的定义基于图像像素或整体图像分类结果。研究将提出的Deep-CNN-RF模型与多种基线模型和现有先进模型进行了详尽的对比。
本研究取得了一系列显著的成果,数据详实,逻辑链条清晰。
在模型性能方面,提出的Deep-CNN-RF模型在所有测试数据集上均表现优异。具体数据如下:在NLM数据集上,模型取得了93.35%的准确率、92.82%的精确率、95.51%的召回率、93.60%的F1分数以及0.065的MSE。在Kaggle和NIH数据集上的测试结果也 consistently 很高,例如在NIH数据集上准确率达到94.32%,精确率达94.68%(详见表5)。这些结果充分证明了模型的有效性和泛化能力。
与现有模型的对比结果更具说服力。如表5所示,Deep-CNN-RF模型在准确率、F1分数和MSE上均优于其他对比模型,包括标准的CNN、VGG16-RF、VGG19-RF、DenseNet-RF以及各种决策树(DT)组合模型。例如,相较于性能次优的VGG19-RF(准确率93.05%),本模型提升了约0.3个百分点;其MSE(0.065)也是所有对比模型中最低的,表明预测误差更小。图9展示了训练过程中损失、准确率和MSE随周期变化的曲线,显示模型在训练集和验证集上均能良好收敛,且无明显过拟合迹象(验证准确率最终稳定在92.37%左右)。
与近期其他文献中的先进模型相比(见表6),本模型同样显示出优势。例如,相比Banerjee等人提出的DCNN(Falcon)-TL模型(F1-score 93.00%),本模型在NLM数据集上的F1-score(93.60%)略有提升;相比Vijayalakshmi等人使用的VGG19-SVM模型(F1-score 91.66%),提升更为明显。图11通过柱状图直观对比了不同模型在精确率、召回率和F1分数上的表现,凸显了本模型的综合性能领先地位。
在辅助分析结果方面,Canny边缘检测成功勾勒出了疟原虫的清晰边界(如图7所示),证明了其在复杂细胞背景中提取目标轮廓的有效性。更重要的是,通过GAP层实现的类激活图可视化(如图8),能够清晰地显示模型做出分类决策时所依赖的图像区域。可视化结果表明,Deep-CNN-RF模型能够更集中、更完整地关注到疟原虫感染的目标区域,而忽略无关的背景组织,这从定性角度印证了模型特征学习能力的优越性和决策的合理性。
这些实验结果逻辑紧密地支撑了研究的核心论点:第一,通过修改网络结构(引入GAP)和改变分类策略(用RF替代Softmax)所构建的混合模型,确实能够有效应对训练数据有限、类内差异大、类间相似度高以及图像质量不佳等挑战,从而获得更高的分类精度和鲁棒性(体现在各项评估指标的提升上)。第二,可视化结果和边缘检测结果不仅增强了模型的可解释性,也间接证明了所提取特征的判别性,使整个系统不仅“性能好”而且“更可信”。第三,在多个独立数据集上的优异表现,证实了该方法的普适性和实用潜力。
本研究的结论明确:成功开发并验证了一种名为Deep-CNN-RF的混合深度学习模型,用于薄血涂片图像中疟原虫的自动化分类与检测。该模型通过结合深度CNN的特征学习能力与随机森林分类器的非线性处理及抗过拟合优势,并创新性地引入GAP层以实现高效的特征压缩和区域可视化,最终在多个公开数据集上实现了超越现有先进模型的性能。研究还整合了Canny边缘检测以辅助精确边界定位。
本研究的价值体现在多个层面。在科学价值上,它为解决小样本、类不平衡、形态多变场景下的医学图像分类问题提供了一个有效的混合建模思路,证明了传统机器学习算法与深度学习模型在特定层面进行融合的潜力。在应用价值上,该研究为开发低成本、高效率、高精度的自动化疟疾诊断辅助系统提供了可行的技术方案。这种系统有望部署在资源有限的地区,减轻医务人员负担,缩短诊断时间,降低因人工误诊或漏诊导致的死亡率,具有重要的公共卫生意义。此外,模型的可视化功能有助于建立临床医生对AI诊断结果的信任。
本研究的亮点突出:首先,方法新颖:创造性地将深度CNN与随机森林分类器结合,并修改了网络池化层结构,这种混合架构是针对疟原虫分类特定挑战的定制化解决方案。其次,性能卓越:在多个权威数据集上进行了全面评估,取得了当时最先进的分类准确率,各项指标均衡且优异。再次,可解释性强:不仅提供“黑箱”分类结果,还通过GAP可视化展示了模型的“注意力”区域,并通过Canny边缘检测提供了寄生虫的形态学信息,增强了系统的透明度和实用性。最后,研究完整:从问题背景、文献综述、方法设计、实验验证到结果讨论,形成了一个逻辑严密、数据支撑充分的完整研究闭环。
此外,研究还对疟原虫在血液涂片中的传播动力学进行了数学建模(基于微分方程),虽未直接用于核心的分类模型,但体现了作者从更广泛的疾病传播角度理解问题的尝试,丰富了论文的内容维度。作者也明确指出,未来的工作将集中于图像分割(更精细的定位)和系统安全性方面的研究,为后续工作指明了方向。