分享自:

基于人工神经网络识别高风险COVID-19患者的前瞻性研究

期刊:Scientific ReportsDOI:10.1038/s41598-025-00925-3

这篇文档属于类型a,是一篇关于使用人工神经网络(Artificial Neural Networks, ANN)识别COVID-19高风险患者的原创性研究。以下是针对该研究的学术报告:


基于人工神经网络的COVID-19高风险患者识别:一项前瞻性研究

1. 作者与发表信息

本研究由Mateo Frausto-Avila(墨西哥国立自治大学应用物理与先进技术中心)、Roberto de J. León-Montiel(墨西哥国立自治大学核科学研究所)、Mario A. Quiroz-Juárez(通讯作者,墨西哥国立自治大学应用物理与先进技术中心)和Alfred B. U’ren(墨西哥国立自治大学核科学研究所)合作完成,发表于Scientific Reports期刊(2025年,卷15,文章编号18005)。

2. 学术背景

科学领域:本研究属于机器学习(Machine Learning, ML)在流行病学中的应用,结合了医学数据分析和人工智能技术。
研究背景:COVID-19大流行对全球公共卫生系统造成巨大压力,尤其在资源有限的情况下,快速识别高风险患者对优化医疗资源配置至关重要。尽管已有多种机器学习算法用于预测COVID-19患者风险,但多数研究缺乏前瞻性验证,无法证明模型在真实世界动态环境(如病毒变异、疫苗接种率变化)中的鲁棒性。
研究目标
- 验证一种基于人工神经网络的模型在墨西哥六次流行病学浪潮中对高风险患者的预测能力;
- 评估模型在不同临床阶段(从初次就诊到重症监护)的准确性;
- 探索早期训练数据是否能在后续疫情中保持预测效力。

3. 研究流程与方法

3.1 数据来源与预处理

研究使用墨西哥联邦政府公开的COVID-19患者数据库(2020年5月12日至2023年4月4日),覆盖25,118,719例患者记录,包含:
- 人口统计学数据(如年龄、性别、居住地);
- 临床信息(如合并症、症状出现时间、住院状态);
- 治疗结果(康复或死亡)。

数据预处理
- 原始数据包含28项特征,剔除7项预测力弱的特征(如妊娠、吸烟史);
- 对剩余21项特征进行数值编码和最小-最大归一化(Min-Max Normalization);
- 根据临床进展分为四个阶段:
- 阶段1:初次就诊,疑似感染;
- 阶段2:确诊COVID-19,可能伴肺炎;
- 阶段3:住院治疗;
- 阶段4:需插管或进入ICU。

3.2 模型构建与训练

神经网络架构
- 前馈神经网络(Feed-Forward Neural Network),含两层:
- 隐藏层:2个Sigmoid神经元;
- 输出层:2个Softmax神经元(分类输出康复或死亡)。
- 训练参数
- 损失函数:交叉熵(Cross-Entropy);
- 优化器:缩放共轭梯度反向传播(Scaled Conjugate Gradient Backpropagation);
- 超参数通过试错法手动调整。

训练策略
- 第一阶段:使用截至2021年1月31日的数据训练初始模型(未重新训练),测试其在后续五次疫情浪潮(EW-2至EW-6)中的表现;
- 第二阶段:逐步扩展训练数据至每次疫情浪潮结束,重新训练模型并比较性能。

3.3 前瞻性验证与患者追踪
  • 患者追踪协议:从每次疫情浪潮的第1天至第(n-19)天(n为浪潮持续时间)筛选阶段1患者,逐日跟踪其临床阶段升级情况;
  • 测试数据:仅包含阶段升级的患者(如阶段1→阶段2),排除后期发病者。

4. 主要结果

4.1 模型准确性
  • 早期训练模型的跨浪潮预测
    • 阶段1和阶段2的预测准确率稳定在80%-94%(表2);
    • 阶段3和阶段4因样本量小,准确率波动较大(62%-85%)。
  • 扩展训练数据的影响
    • 增加训练数据未显著提升模型性能(表3),表明早期数据已具备足够泛化能力;
    • 例如,仅用EW-2数据训练的模型在EW-6中阶段2准确率仍达89.78%。
4.2 与其他机器学习模型的对比

研究对比了随机森林(RF)、支持向量机(SVM)和逻辑回归(LR):
- 神经网络(NN)与SVM表现最佳(平均准确率81.01% vs. 80.18%);
- RF和LR在阶段3、4预测中表现较差(表4-8)。

4.3 鲁棒性验证

模型在以下动态条件下保持稳定:
- 疫苗接种率变化(墨西哥截至2022年10月接种率为76.04%);
- 病毒变异株更替
- 治疗方案调整

5. 结论与意义

科学价值
- 证实了基于早期数据的神经网络模型在长期疫情中的预测鲁棒性,为未来大流行病的风险分层提供了方法论支持;
- 提出了一种轻量级模型(仅21项特征输入),适用于资源有限的医疗场景。

应用价值
- 可整合至临床分诊系统,辅助识别需优先干预的高风险患者;
- 模型开源(GitHub),促进跨地区验证与适配。

6. 研究亮点

  • 前瞻性设计:首次在六次疫情浪潮中验证模型的动态性能;
  • 临床实用性:明确划分四阶段预测,覆盖从门诊到ICU的全流程;
  • 方法创新:通过患者追踪协议解决数据不连续性问题(如EW-5数据缺失)。

7. 其他有价值内容

  • 局限性
    • 阶段4样本量不足可能影响统计效力;
    • 数据依赖墨西哥医疗系统,跨国家推广需本地化验证。
  • 扩展方向:结合多模态数据(如影像学、生化指标)进一步提升精度。

此研究为机器学习在公共卫生危机中的应用提供了重要范例,其方法论和结论对应对未来流行病具有广泛参考价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com