基于空间感知Transformer-GRU的3D OCT图像青光眼增强诊断框架

2025-09-18 Thu
青光眼检测 3D光学相干断层扫描 Transformer 门控循环单元空间依赖性人工智能临床辅助诊断
一、学术背景——青光眼早筛亟需创新诊断工具青光眼是全球范围内导致不可逆性失明的主要疾病之一。据[31]等研究表明，青光眼具有早期症状隐匿、视功能损害不可逆等特点，因此早期发现和干预至关重要。目前，光学相干断层扫描（Optical Coherence Tomography，简称OCT）作为一种三维（3D）无创高分辨率影像技术，在眼科诊断领域发挥着日益重要的作用，能够直观展现眼部解剖的结构性变化，并帮助医生实现对视网膜神经纤维层（Retinal Nerve Fiber Layer，RNFL）等关键区域的精确评估[13]。
然而，传统青光眼OCT辅助诊断方法往往依赖于二维（2D）B扫描的分析，重点关注视神经乳头（Optic Nerve Head，ONH）中央切片。这种局部信息虽有助于检测结构性损伤，但必然忽略了3D OCT影像所蕴含的全面空间信息，难以揭示青光眼在视网膜各层深度和区域的广泛、渐进性病理特征[34]。此外，由于RNFL变薄、眼底结构改变等变化表现为复杂的空间分布，人工逐层判读OCT数据既费时又易漏诊。
为应对上述挑战，人工智能（Artificial Intelligence，AI）技术——尤其是深度学习（Deep Learning）方法——成为自动化青光眼筛查的重要手段。如何高效整合整个3D OCT体积数据、挖掘其潜在空间特征，并在实际临床场景下提高自动诊断的准确性和可靠性，是当前的研究热点。本文作者正是针对3D OCT数据的深层价值和自动化诊断流程中的关键难题展开了创新性探索。
二、论文来源及作者信息本文题为《Spatial-Aware Transformer-GRU Framework for Enhanced Glaucoma Diagnosis from 3D OCT Imaging》，发表于《IEEE Journal of Biomedical and Health Informatics》2025年9月第29卷第9期（DOI: 10.1109/jbhi.2025.3550394）。作者为Mona Ashtari-Majlan及David Masip（Senior Member, IEEE），均来自西班牙加泰罗尼亚开放大学（Universitat Oberta de Catalunya, UOC）计算机科学、多媒体与电信系。研究获得西班牙科学与创新部资助（FEDER initiative, Grant PID2022-138721NB-I00）。
三、研究流程详细解读1. 研究总体设计与思路该研究聚焦于开发一种创新的深度学习框架，充分利用3D OCT全体积的空间信息，实现青光眼的自动化、精准筛查。提出的模型融合Transformer和双向门控循环神经网络（Bidirectional Gated Recurrent Unit, GRU）双核心架构，兼顾局部切片特征提取与整体空间结构依赖建模，实现对青光眼微妙损伤的全面捕捉。
研究流程分为数据预处理、特征提取、序列处理、模型训练与优化、对比实验、消融实验等环节。
a) 数据预处理（Pre-processing）数据来源：采用Maetschke等人公开的3D OCT影像数据集[21]，囊括624名患者的1110份OCT扫描。扫描仪型号为Cirrus SD-OCT，分辨率为64×64×128体素。
样本组织：信号强度≥7者纳入研究，最终263例为健康对照，847例诊断为青光眼（均经视野检查两次异常结果确诊）。
预处理方法：
所有影像按ImageNet均值与标准差归一化，统一亮度色度分布。
影像尺寸调整至64×128×128标准大小，确保各样本输入的结构一致。
b) 特征提取（Feature Extraction）方法创新：采用由Zhou等开发预训练的RetFound模型[36]作为特征提取网络，其核心为ViT-large（Vision Transformer，大型视觉Transformer）框架，包含24个Transformer块、1024维嵌入向量，对1.6百万未标注视网膜影像进行了自监督学习。
具体实现：
将3D OCT体积划分为d（64）个切片，每个切片(s_i)独立输入ViT-large模型，输出1024维切片特征向量(f_i)。
特征抽取流程有效捕捉每一层面细微结构差异，为后续整合做准备。
c) 序列处理（Sequential Processing）空间依赖建模：为刻画3D OCT序列各切片间的空间相关性与时序依赖，采用双层双向GRU。
网络流程：
第一步，将所有切片特征向量｛f_1, f_2, … f_d｝依次输入GRU。
双向处理捕获前向（h_fw）与后向（h_bw）空间状态，对左右眼、前后视网膜空间变化全面建模。
拼接、Dropout（优化泛化能力）、自适应最大池化（Adaptive Max Pooling，AMP）后形成统一空间表示，最后通过全连接层（FC）及Sigmoid激活输出两类（青光眼/正常）概率分布。
损失函数设计：为克服类别不平衡，提出应用Focal Loss损失函数，有效提升对“难分类”样本的关注度，减弱多数类支配效应。
d) 模型训练与超参数优化训练方法：全套模型基于PyTorch 1.8.1搭建，采用Adam优化器，总训练周期100轮，早停机制防止过拟合。
超参数探索：试验多组GRU隐藏层尺寸及Dropout率，并系统分析Focal Loss参数α与γ的影响，最终选择GRU隐藏层分别为256与128，Dropout率0.3，α=0.3、γ=2为最优配置。
验证模式：采用5折交叉验证，确保模型性能的稳健性，训练/验证/测试均按患者分组，避免同一患者多次采样带来干扰。
e) 对比实验与消融分析对比基线方法：
3D-CNN（即Maetschke等人方法[21]）：直接处理3D OCT体积，代表传统卷积神经网络处理方案。
RetFound扩展模型：仅用RetFound ViT-large特征提取器处理2D切片，结果通过两层FC分类。
消融实验思路：
替换ViT-large为ResNet34特征提取器，比对预训练领域影响；
替换GRU为LSTM，分析序列建模方式差异；
采用切片投票集成方法，仅分析几个熵值高的切片特征，评估空间整合的必要性。
利用t-SNE可视化特征分布，展示不同特征提取与序列建模策略的区分类能力。
2. 主要实验结果a) 核心模型性能准确率（Accuracy）：达89.19%，显著优于3D-CNN（77.62%）和RetFound扩展模型（83.51%）。
F1分数：93.01%，体现模型对两类样本的平衡判别能力。
AUC（ROC曲线下面积）：94.20%，凸显模型对青光眼与正常全面区分优势。
MCC（马修斯相关系数）：69.33%，指标对类别不均衡情形尤具可信性。
敏感性（Sensitivity）/特异性（Specificity）：分别为91.83%和79.67%，兼顾检出率和误判率控制。
置信区间：5折交叉验证结果波动小，表现可靠性高。
b) 消融分析与可视化ViT-large优于ResNet34：后者系泛化的ImageNet预训练，青光眼区分能力显著低于专用OCT-预训练ViT-large模型。
GRU优于LSTM：两者均可有效处理序列，GRU稳定性与参数量更优，适合本框架深层空间建模。
空间整合必不可少：切片投票集成虽可提升部分局部特征表达，但整体准确性和鲁棒性远逊于依赖序列整合的Transformer-GRU框架。
t-SNE可视化：ViT-large特征在青光眼与正常分布上更为紧凑清晰；完整Transformer-GRU特征空间区分力最强，有助于自动筛查临床可用性。
c) 组件贡献探究消融实验明确证明了特征提取（领域自监督预训练）、空间整合（双向序列捕获）、损失函数（Focal Loss应对类别不平衡）等核心组件对模型性能提升的决定性作用。
四、结论与价值分析1. 科学价值本研究创新性地提出空间感知的Transformer-GRU框架，用于3D OCT影像青光眼自动诊断。其显著提升了对局部微观变化和全局结构关联的整合能力，突破了传统2D/3D卷积方法局限。采用OCT自监督预训练ViT-large与空间序列GRU深度融合，有效提取病变分布的复杂模式，为AI辅助眼科疾病诊断树立了新范式。
2. 临床与应用价值早筛高精准性：针对影像中微妙早期病灶，系统性空间信息挖掘，有助于提升青光眼早期发现率，降低误判漏诊风险。
自动化智能决策支持：模型输出概率分布，可直接融入临床辅助决策平台，辅助医生客观全面评价病变程度。
泛化能力强：面向样本不均衡实际临床数据设计，培训大规模OCT数据，贴近真实医院场景。
开放源码推动发展：开源实现代码（https://github.com/mona-ashtari/spatialoct-glaucoma）有助于全球科研／临床机构快速复现和提升模型，推动AI在眼科领域应用普及。
3. 方法与流程亮点**ViT-large自监督预训练模型首次大规模应用于OCT影像，对复杂病灶模式捕捉远胜传统卷积网络。
**创新双向GRU序列空间依赖建模，充分捕获视网膜前后及内外结构的交互信息。
**Focal Loss针对医学影像分类常见的不均衡样本高效改良，优化了模型在现实场景下对稀有病例的检出能力。
**完整消融分析、对比多个基线模型，充分厘清各技术贡献，为后续相关研究提供科学依据。
4. 未来展望与建议作者提出未来可进一步引入多模态数据（如视觉场检测、患者人口学信息），丰富诊断依据；可尝试更多序列处理策略及注意力机制以进一步提升性能；并鼓励医学生物信息学领域拓展本框架至其他眼科疾病（如黄斑变性、糖尿病视网膜病变）甚至更多器官医学影像分析。
同时，为临床实际部署，建议进一步开展多中心、大样本、跨地区临床验证，强化模型泛化与安全性，使AI辅助诊断真正造福全球眼科患者。
五、重要参考信息与其他内容本研究引用大量当前国际先进论文成果（详见文末参考文献），涵盖青光眼病理机制、OCT影像分析、深度学习方法等多个维度，整体视野宽广、逻辑严谨。
数据集、算法、源代码均对外开放，支持科研界、临床界共同提升AI眼科诊断水平。
作者强调算法实际部署需考虑不同性别、种族、人口特征，呼吁构建多样性强健的医学AI应用基础。