本文的主要作者包括 Marı́a Jaramillo、Diego Bravo、Jose M. Quijano、Martín Gómez、Fabio A. González 和 Eduardo Romero。作者分别隶属于以下研究机构:Computer Imaging and Medical Applications Laboratory(cim@lab)、Machine Learning, Perception and Discovery Lab(mindlab)以及 Gastroenterology Unit, Hospital Universitario Nacional,均位于哥伦比亚波哥大市。这篇研究成果发表在即将召开的IEEE国际生物医学影像专题研讨会(2024 IEEE International Symposium on Biomedical Imaging)中。
近年来,胃癌作为威胁全球健康的重大疾病之一,其发病率高、致死率也非常显著,胃癌诱发阶段的识别成为研究热点。胃癌的风险与某些前驱病变(如肠化生,Intestinal Metaplasia, 简称IM)的出现密切相关,目前主要通过病理图像的人工分析来评估肠化生情况。然而,这种人工分析方法受限于检查时间、技术设备以及操作人员的经验水平,易存在观察者之间的诊断差异性。此背景下,一些图像增强技术(如放大内镜、窄带成像等)虽能提高病变特征识别的准确性,但耗费较高且需要高端设备和专业技能。研究中指出,白光内镜(White Light Endoscopy, WLE)作为一种经济高效的选项,存在诊断变异率高的问题。为此,迫切需要一种基于计算机辅助的自动化方法,高效捕捉白光图像中可能存在的亚视觉特征(sub-visual patterns),从而提高肠化生诊断的可靠性和效率。
作者的研究目标为开发一种新的自动化方法,对白光内镜图像中的肠化生进行特征提取和分类预测,为传统内镜提供技术补充,并验证其诊断准确性。
本研究使用了一个私有数据集,包含来自哥伦比亚 Hospital Universitario Nacional 的 57 例病例,收集过程得到了 Universidad Nacional de Colombia 医学院伦理委员会的批准(批准编号为:CEI-2019-06-10)。这些病例根据OGIM(Operative Link on Gastritis Assessment based on Intestinal Metaplasia)评分系统分为两组:34 例为健康对照(OGIM 0),23 例为病理诊断为OGIM 1至3的肠化生患者。
每个病例的视频记录中,作者选择了内镜取样前30帧作为研究对象。根据文献,肠化生病变通常起始于胃体-胃窦连接区域(即切迹,incisura)。因此,切迹区域被自动识别并提取特定关注区域(Region of Interest, ROI)。为捕捉此区域内的本地纹理变化,每个病例从切迹处随机提取平均约1,922块大小为64×64像素的图像补丁,总计109,578块补丁,从而形成平衡样本。
作者设计和对比了两种深度学习模型架构来提取低级特征:ConvNeXt Tiny 和 Masked Autoencoder(掩码自动编码器,MAE)。
ConvNeXt Tiny 模型
ConvNeXt Tiny 是一种卷积神经网络结构,其结合了经典卷积网络与Transformer的设计特点。训练流程分为预热阶段(仅训练全连接层,快速捕捉区域特征模式)及微调阶段(解冻预训练层以适配具体问题)。该架构通过反复优化学习率、批次大小等超参数最终实现分类。
Masked Autoencoder(MAE)模型
MAE 通过将输入图像划分为小补丁后随机掩码一部分,利用编码器(基于视觉Transformer架构)提取特征并重建掩码区域内容,从而实现无监督学习。MAE 训练分为两个阶段:第一阶段为自监督学习,最小化图像重建损失以获得潜在特征表示;第二阶段是对编码器接线至分类模块,以实现二分类任务。
每个补丁图像被分为两类:肠化生(metaplasia)与非肠化生(non-metaplasia)。通过对病例成千上万的补丁分类预测计算平均概率,进而以5%为门槛决定每例病例的最终标签(肠化生或非肠化生)。此外,模型训练集、验证集和测试集分别占总数据集的60%、10%和30%。
模型性能评价通过多种指标,包括准确率(accuracy)、F1-score、加权精度(weighted precision)和 Matthews 相关系数(MCC)等,用于衡量输出结果与实际标签的契合度。
两种网络架构均能识别白光图像中的肠化生的潜在模式,但在不同层面表现各异:
- 在补丁层面,MAE 的重建能力较强,分类支持指标(如加权精度75.2%)表现更好;
- 在病例层面,ConvNeXt Tiny 准确率(76.5%)与综合F1分数(73.7%)更高,整体误分类显著减少,表明在病例级别优化作用显著。
研究还以混淆矩阵论证了随机选取多补丁综合决策的优越性,进一步验证了白光图像中亚视觉特征的可行性。此外,作者通过增量试验发现,扩展数据集和热图生成等未来补充方向将进一步强化分类性能。
本文提出了一种基于白光内镜的自动化肠化生诊断方法,揭示了亚视觉模式在传统内镜视频中的潜在利用价值。通过深度学习模型(ConvNeXt Tiny 和 MAE),研究实现了部分肠化生病例的高效分类,平均F1分数达73.7%。相比昂贵依赖设备的图像增强方案,本文方法提供了一种更经济的选项,并为肠化生及胃癌的早期筛查提供了新的研究方向。
本文实现的分类准确性存在进一步提升空间,可通过增加病例数量、生成分类热图、与其他影像增强方案结合应用等手段优化分类算法。作者期望在未来扩展数据规模以支持更复杂的临床应用场景,这将大大提高其对公共健康的贡献价值。