本文报告了一项关于痴呆症早期筛查工具的原创性研究。Ying Xu1,4, Chi Zhang2,4, Baobao Pan2, Qing Yuan1 & Xu Zhang3 是该研究的主要作者。他们的研究机构包括:深圳市宝安区慢性病防治中心 (Shenzhen Bao’an Centre for Chronic Disease Control), 深圳市一维科技有限公司 (Shenzhen Yiwei Technology) 和深圳大学大数据系统计算技术国家工程实验室 (National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University)。该研究以论文形式发表,题为《A portable and efficient dementia screening tool using eye tracking, machine learning and virtual reality》,刊登于期刊 npj Digital Medicine,该期刊于2024年与首尔大学盆唐医院合作出版。论文的在线发表链接为 https://doi.org/10.1038/s41746-024-01206-5。
研究的学术背景。该研究属于医学与人工智能、工程学交叉的领域,具体涉及神经病学、认知评估、眼动追踪(eye tracking)技术、机器学习及虚拟现实(Virtual Reality, VR)技术。痴呆症作为一种严重的全球性健康挑战,其早期筛查对于有效管理和干预至关重要。然而,当前主流诊断方法,如针对最常见的阿尔茨海默病(Alzheimer’s disease, AD)的生物标志物检测(包括脑脊液β-淀粉样蛋白、淀粉样蛋白正电子发射断层扫描等),存在成本高、有创等局限性,难以用于大规模筛查。此外,目前用于识别痴呆症前驱阶段——轻度认知障碍(Mild Cognitive Impairment, MCI)的神经心理学量表,如蒙特利尔认知评估(Montreal Cognitive Assessment, MoCA),虽然有效,但需要经过培训的医师操作,耗时较长,受测试环境和医师主观判断影响,也不适用于大规模人群筛查。近年来,眼动追踪技术通过捕捉和量化与认知行为相关的眼球运动,显示出作为认知评估工具的潜力。研究表明,细微的眼动变化可以作为MCI的早期指标。然而,如何高效、准确地解读海量眼动数据是一大挑战。在此背景下,本研究旨在通过整合眼动追踪技术、机器学习与虚拟现实技术,设计并开发一种非侵入性、高效且便携的痴呆症早期筛查工具,即VR眼动认知评估(VR eye-tracking cognitive assessment, VECA),以应对大规模筛查的需求。
研究的详细流程。本研究是一项单中心横断面研究,旨在开发并初步验证VECA工具。整个工作流程主要包括四个阶段:研究对象招募与入组、数据采集、数据处理与特征提取、以及机器学习建模与评估。
第一,研究对象。 本研究从深圳市宝安区慢性病医院招募了总共201名参与者(受试者)。样本年龄为65.5 ± 5.1岁,其中男性81人,女性120人,受教育年限为9.4 ± 3.8年。研究排除了患有精神疾病、眼科疾病、听力障碍或严重躯体疾病导致无法舒适坐立的个体。只有视力正常或矫正后正常且无色盲的参与者被纳入。研究获得了机构伦理委员会的批准,所有参与者均签署了书面知情同意书。
第二,数据采集。 数据采集包含两部分:传统神经心理学评估和VECA评估。首先,所有参与者均接受中文版MoCA量表测评,获得传统认知功能评分,作为研究的目标变量(金标准或参照标准)。其次,参与者接受VECA评估。该评估使用集成眼动追踪功能的VR头戴式显示设备(Pico Neo 3 Pro Eye,内置Tobii眼动仪)进行。评估在一个受控的虚拟现实环境中进行,持续仅5分钟。在开始前,会进行眼动校准以确保数据的有效性。VECA包含一系列基于虚拟场景的多领域认知任务,旨在评估多种认知功能,包括:视觉注意(smooth pursuit)、抽象能力(abstraction ability)、计算、执行功能、记忆(编码、存储、回忆)、语言理解与执行、以及短时记忆绑定等。在每个任务中,参与者通常有3秒时间理解指令,然后用5或8秒完成任务。虚拟场景中会展示多个图像,包含一个正确答案(感兴趣区域, Area of Interest, AOI)和若干干扰项(非感兴趣区域, non-AOI)。参与者被要求识别并注视正确答案。在整个评估过程中,眼动仪实时记录参与者的注视点和眼球运动数据。
第三,数据处理与特征提取。 从原始注视点数据中,使用速度阈值注视点识别(Velocity-threshold Fixation Identification, I-VT)算法识别出生物性眼动事件,如注视和扫视,并过滤掉眨眼或意外抖动引起的异常噪音点。核心的特征提取方法是:对于每个认知任务,计算受试者注视AOI的时间占总注视时间的百分比,以此作为一个特征值。研究共提取了11个任务相关的眼动特征(如vr_att, vr_abs, vr_mem8等)。此外,参与者的年龄(数值型)和性别(类别型)作为人口学特征也被纳入特征集。值得注意的是,受教育年限(类别型)也被编码为特征,因为已有研究表明教育水平显著影响认知测试表现。所有分类特征使用独热编码或序数编码进行预处理,数值特征则进行标准化缩放,以消除量纲影响。最终,每个参与者对应一个包含人口学特征和眼动任务特征的特征向量,以及一个MoCA目标分值。
第四,机器学习建模与评估。 数据集被随机按70%-30%划分为训练集和测试集。研究设定了基线模型(VR模型),即简单地取所有认知任务的眼动特征的平均值作为认知评估分数。然后,研究采用了四种监督机器学习算法进行模型训练和比较,以预测MoCA分数:支持向量回归(Support Vector Regression, SVR)、多层感知器(Multi-Layer Perceptron, MLP)、LASSO回归和梯度提升回归树(Gradient Boost Regression Tree, GBRT)。模型超参数通过网格搜索和5折交叉验证在训练集上进行优化。模型性能在测试集上使用多个指标进行评估,包括:中位数绝对误差(Median Absolute Error, Median AE)、平均绝对误差(Mean Absolute Error, MAE)、均方根误差(Root Mean Square Error, RMSE)以及与MoCA分数的相关性系数(Correlation)。最终,性能最佳的模型被选为最终的VR-人工智能(VR-AI)模型,用于后续的筛查效能分析。
为了进一步评估VECA作为筛查工具的能力,研究基于中国人群MoCA常模的研究(Lu et al., 2011),根据受教育年限将参与者分为三组:第1组(0-6年教育, n=61)、第2组(6-9年教育, n=63)、第3组(大于9年教育, n=78)。并为每组设定了相应的MoCA截断分值来区分“认知正常”和“认知障碍”。接着,使用选出的VR-AI模型对参与者进行预测,得到VR-AI分数。通过受试者工作特征曲线(ROC curve)分析,为每组的VR-AI分数确定最佳的筛查截断分值(采用F-β评分方法,在筛查场景中更侧重敏感性)。然后计算了该模型在各组中筛查认知障碍的敏感性(sensitivity)、特异性(specificity)以及ROC曲线下面积(Area Under Curve, AUC)。
此外,研究还使用SHAP(Shapley Additive Explanations)分析方法对最佳模型的预测结果进行可解释性分析,以评估各个认知任务和人口学变量对预测MoCA分数的贡献度。
研究的主要结果。研究结果清晰地展示了VECA工具在认知评估和筛查方面的优越性能。
第一,VR-AI模型选择结果。 在四种机器学习模型中,支持向量回归模型在所有评估指标上均表现出色,尤其是在中位数绝对误差(2.04 ± 0.18)和与MoCA分数的相关性(0.90 ± 0.06)方面,显著优于其他模型和基线模型。因此,支持向量回归模型被选为最终的VR-AI模型。其预测分数与真实MoCA分数呈现高度线性相关(r = 0.90, p < 0.0001),而基线VR模型的相关性仅为0.58。
第二,模型可解释性结果。 SHAP分析揭示了各特征对预测MoCA分数的贡献。受教育年限是最强的预测因子(平均绝对SHAP值占比14.6%),其次是计算任务4(11.5%)。记忆、执行和回忆相关的眼动任务特征也位居前列。这表明,模型在预测时不仅依赖于任务表现,也充分考虑了中国人群中教育背景对认知评分的重要影响,这增强了模型的文化适应性。
第三,筛查效能评估结果。 VECA工具在不同教育水平组中均表现出优秀的筛查能力。ROC分析显示,三组的AUC值分别为0.88(95% CI: 0.78-0.97)、0.93(95% CI: 0.89-1.00)和0.94(95% CI: 0.89-0.99),表明模型具有很高的区分度。研究确定的各组VR-AI最佳筛查截断分值为:第1组(<6年教育)13/14分,第2组(6-9年教育)21/22分,第3组(>9年教育)23/24分。在此截断值下,三组筛查认知障碍的敏感性分别为89%, 88%, 89%,特异性分别为82%, 87%, 84%。综合所有参与者,VECA筛查的总体敏感性和特异性分别达到88.5%和83%,展现了其作为高效筛查工具的潜力。
结论与意义。本研究成功开发并初步验证了一种整合眼动追踪、机器学习和虚拟现实技术的便携式、高效的痴呆症早期筛查工具——VECA。研究表明,VECA能够通过仅5分钟的虚拟现实任务,准确预测传统MoCA量表分数,并在区分认知正常与认知障碍个体方面表现出高敏感性和特异性。其价值体现在:科学价值上,该研究证明了多模态数据(眼动、VR场景交互)与机器学习算法结合,在量化、客观化认知评估方面的巨大潜力,为认知障碍的生物行为标志物研究提供了新思路。应用价值上,VECA具有显著优势:1. 便携性与易用性:VR头显设备便于携带,无需专门评估室,且测试过程完全自主进行,降低了大规模筛查的门槛。2. 高效率:5分钟即可完成,远快于传统神经心理学测试(如30分钟的MoCA)。3. 成本效益:随着消费级VR眼动设备普及,成本有望降低。4. 抗干扰能力强:标准化的VR环境减少了外部环境变量和测试者主观因素的影响,结果更客观。因此,VECA有潜力成为一种适用于社区、体检中心等场景的大规模痴呆症早期筛查工具,有助于实现早发现、早干预,从而延缓认知衰退,减轻个人和社会负担。
研究的亮点。本研究的亮点包括:方法学创新:首次将眼动追踪、机器学习和VR三项技术深度融合,系统性地构建了一个端到端的自动化认知筛查流程。研究设计的针对性:充分考虑了教育水平对中国人群认知评估的影响,在模型构建和结果分析中按教育程度分组,提高了工具的实用性和文化适应性。优秀的性能指标:所开发的模型与金标准(MoCA)相关性高达0.9,筛查敏感性和特异性均超过83%,且在不同教育背景组中表现稳健,初步验证结果令人鼓舞。流程的高效性:将复杂的认知评估浓缩为5分钟的VR任务,极大提升了筛查效率。
其他有价值的内容。论文也坦诚地指出了研究的局限性,为未来工作指明了方向:1. 样本局限性:参与者仅来自深圳社区,样本多样性不足,且缺乏合并症、用药史等全面信息,可能引入选择偏倚。2. 用户接受度未评估:未系统评估参与者对VR干预措施的主观感受和接受程度。3. 泛化能力待验证:未进行多中心的交叉训练与测试,模型在不同地域和人群中的普适性有待验证。4. 技术依赖限制:系统依赖于受试者的视力和文字理解能力,缺少任一能力可能导致结果偏差。5. 目标变量噪声:作为金标准的MoCA评分本身也受医生主观影响,其噪声可能影响模型精度。作者提出未来研究需要通过更大规模、更多样化的样本,收集更全面的临床数据,进行多中心验证,并探索从原始眼动数据中提取更多信息特征,以进一步提升模型的性能和鲁棒性。