本文介绍了一项关于结直肠癌全阶段诊断的研究,该研究由来自复旦大学、复旦大学附属肿瘤医院、香港中文大学以及复旦大学附属中山医院的多位研究人员共同完成,主要作者包括Junhu Fu、Ke Chen、Qi Dou、Yun Gao、Yiping He、Pinghong Zhou、Shengli Lin、Yuanyuan Wang和Yi Guo。该研究于2024年发表在《IEEE Transactions on Medical Imaging》期刊上。
结直肠癌(Colorectal Cancer, CRC)是全球癌症相关死亡的主要原因之一,早期症状不明显,导致许多患者在晚期才被诊断,治疗效果有限。全阶段结直肠疾病的诊断对于评估病变的演变和制定治疗计划至关重要。然而,由于病变的局部差异和疾病进展,结直肠病变的表征存在类内差异和类间相似性。此外,现有的算法缺乏解释性,使得预测过程成为一个“黑箱”。为了解决这些问题,研究人员提出了一种名为IPNet的双分支可解释网络,结合渐进损失函数,用于全阶段结直肠疾病的诊断。
IPNet的设计旨在解决现有算法在特征表示、类间关系挖掘和解释性方面的不足。研究流程包括以下几个关键步骤:
双分支架构与层次交互块(HI Blocks):IPNet采用双分支架构,分别捕捉全局和局部特征,以减少类内差异。全局分支使用基于Transformer的机制,计算非重叠局部窗口内的自注意力,并通过窗口移位实现跨窗口交互。局部分支则采用基于CNN的结构,通过深度卷积捕捉局部细节。层次交互块(HI Blocks)用于促进两个分支之间的特征交互,确保全局和局部特征更好地对齐。
渐进损失函数:传统的交叉熵损失函数使用独热编码(one-hot encoding),无法考虑类间关系。IPNet引入了渐进损失函数,采用步进编码(step encoding)来反映类间关系,从而更好地挖掘结直肠病变的渐进性。该损失函数通过优化决策边界,帮助模型利用疾病演化的先验知识。
Grain-CAM:为了提高模型的解释性,研究人员设计了一种新的Grain-CAM方法,用于可视化IPNet从浅层到深层的像素级注意力图。与传统的Grad-CAM和Grad-CAM++相比,Grain-CAM通过为每个通道内的每个位置分配不同的权重,消除了梯度平均带来的偏差,提供了更准确的注意力图。
研究在两个图像模态上进行了全阶段诊断实验:结直肠病变分类和直肠肿瘤T分期。实验数据包括129,893张内窥镜光学图像和11,072张内窥镜超声图像。IPNet在结直肠病变分类任务中达到了93.15%的准确率,在直肠肿瘤T分期任务中达到了89.62%的准确率,显著优于其他现有的先进算法。
结直肠病变分类:IPNet在区分息肉(polyp)和腺瘤(adenoma)等具有挑战性的类别时表现出色,准确率分别达到90.81%和91.33%。相比之下,其他算法如Gaussian Mixture、Transfer Learning和Cross Attention的准确率较低,分别为86.59%、76.27%和82.14%。
直肠肿瘤T分期:IPNet在区分T2和T3阶段时表现出色,准确率分别为86.13%和82.71%。这些阶段的区分对于决定患者是否需要化疗至关重要。其他算法如Cross Attention在T2和T3阶段的准确率较低,分别为63.26%和48.37%。
IPNet通过双分支架构和渐进损失函数,有效解决了全阶段结直肠疾病诊断中的类内差异和类间相似性问题。Grain-CAM进一步增强了模型的解释性,使得病变的渐进过程更加透明。实验结果表明,IPNet在多模态内窥镜图像上的表现优于现有算法,具有较高的临床应用潜力。
未来的研究将进一步探索如何更好地利用内窥镜超声图像进行结直肠癌诊断,并推广到其他全阶段分类任务中,如肺结核分期和早产儿视网膜病变分期等。
本研究提出了一种创新的双分支可解释网络IPNet,结合渐进损失函数和Grain-CAM,显著提升了全阶段结直肠疾病诊断的准确性和解释性。该研究为结直肠癌的早期筛查和治疗提供了有力的技术支持,具有重要的科学和临床应用价值。