这篇文档的作者是Jonathan H. Chen和Steven M. Asch,他们分别来自斯坦福大学医学院和退伍军人事务帕洛阿尔托医疗保健中心的创新实施中心(ci2i)。该文档发表于《New England Journal of Medicine》2017年6月29日刊。
文档的主题是机器学习(machine learning)和预测在医学中的应用,特别是讨论了当前机器学习在医学中的期望过高(”peak of inflated expectations”)现象。文档首先指出,大数据(big data)和人工智能(artificial-intelligence)在医疗保健中的广泛应用,特别是电子健康记录(electronic health records)和高容量数据流(high-volume data streams)的普及,为医疗决策提供了大量信息。然而,机器学习目前处于“炒作周期”(hype cycle)中的“期望膨胀峰值”(peak of inflated expectations),这意味着虽然其潜力巨大,但实际应用可能尚未达到预期。
文档随后回顾了医学中预测的历史,指出从风险评分(risk scores)到重症监护病房(intensive care unit)中的风险分层(risk stratification),数据驱动的临床预测(data-driven clinical predictions)在医疗实践中已很常见。现代机器学习技术的结合使得我们可以快速生成成千上万的临床预测模型。然而,现实世界的数据源存在许多问题,如患者自选择(patient self-selection)、指示混淆(confounding by indication)和结果数据的不一致性(inconsistent availability of outcome data),这些都可能导致预测中的偏见,甚至种族歧视(racial profiling)。
文档进一步讨论了机器学习方法的局限性。虽然机器学习特别适合基于现有数据的预测,但对遥远未来的精确预测往往从根本上是不可能的。例如,HER2阴性乳腺癌(HER2-negative breast cancer)的预后模型在靶向治疗(targeted therapies)面前不得不被反转,流感疫苗(influenza vaccination)的预测效果也随疾病流行率(disease prevalence)和社区免疫率(community immunization rates)而变化。医学实践不断演进,因此预测模型必须评估其在预测未来事件中的准确性,而不是重现历史趋势。
文档还提到,尽管机器学习算法通过捕捉数据中的复杂非线性关系(nonlinear relationships)可以提高预测的准确性,但无法从不存在的信息中提取出有用的内容。例如,仅凭临床数据对医院再入院(hospital readmissions)的预测能力相对有限,因为这些再入院可能更多地与健康的社会决定因素(social determinants of health)有关。解决方案似乎是增加更多种类的数据,包括社会人口统计学(sociodemographics)、个人基因组学(personal genomics)、移动传感器读数(mobile-sensor readouts)、患者的信用记录(credit history)和网络浏览记录(web-browsing logs)。然而,即使是一个确定性的(deterministic)过程,混沌理论(chaos theory)也解释了为什么即使是简单的非线性系统也无法精确预测遥远的未来。所谓的蝴蝶效应(butterfly effect)指的是未来对初始条件的极端敏感性。
文档指出,尽管没有方法可以精确预测个人的死亡日期,但这种精确度通常并不是预测的必要条件。通过将复杂现象重新定义为有限的多项选择问题(multiple-choice questions),预测算法可以作为诊断筛查测试(diagnostic screening tests)来对患者进行风险分层(risk stratification),并为离散决策提供信息。
文档最后强调,尽管研究继续提高临床预测的准确性,但即使是一个完美校准的预测模型也可能无法转化为更好的临床护理。准确的预测并不告诉我们如何改变结果,甚至不能假设改变预测结果是可能的。机器学习方法通过识别数据中的强关联(strong associations)来发挥作用,但这些关联并不能直接推导出因果关系(causal inference)。例如,姑息治疗会诊(palliative care consults)和去甲肾上腺素输注(norepinephrine infusions)与患者死亡高度相关,但停止这些措施并不一定能降低死亡率。许多预测主要针对那些结果已经显而易见的病例,因此临床实施的关键任务是尽早预测事件,以便相关干预措施能够影响护理决策和结果。
文档总结道,虽然机器学习目前处于期望膨胀的峰值,但通过更深入地了解其能力和局限性,我们可以减轻随后的“失望低谷”(trough of disillusionment)。预测算法虽然无法消除医学中的不确定性,但已经改善了稀缺医疗资源的分配,帮助避免低风险肺栓塞(low-risk pulmonary embolisms)患者的住院,并通过MELD评分(Model for End-Stage Liver Disease)公平地优先考虑肝移植患者。早期预警系统(early-warning systems)可以从现实世界的数据中快速开发和优化,深度学习神经网络(deep-learning neural networks)也提供了以前被认为是不可能的图像识别能力。
文档的最后,作者呼吁超越炒作周期,进入“启蒙斜坡”(slope of enlightenment),利用所有信息和数据资源来持续改善我们的集体健康。
这篇文档的意义在于,它不仅回顾了机器学习在医学中的应用现状,还深入探讨了其局限性和挑战,为未来的研究和应用提供了重要的指导。