《twelve practical recommendations for developing and applying clinical predictive models》是由Guoshuang Feng、Huiyu Xu、Shibiao Wan、Haitao Wang、Xiaofei Chen、Robert Magari、Yong Han、Yongyue Wei与Hongqiu Gu等作者联合撰写,发表于期刊The Innovation Medicine的2024年12月第2卷第4期。本研究的多名作者来自中国、美国的多个知名机构,包括北京儿童医院大数据中心、北京大学第三医院、南方卫理公会大学统计科学系等。全文对临床预测模型的开发与应用提出了12项实践性建议,并结合作者团队的经验对相关问题进行了深入探讨。
在医学领域,临床预测模型在诊断与治疗抉择中扮演着愈发重要的角色。然而,尽管近年来涌现出大量相关出版物,只有少数模型在实际临床中得到了有效应用。导致这一差距的主要原因在于不少预测模型存在质量问题,高偏倚风险与模型在不同场景中的局限性使得许多模型难以直接应用。此外,除模型质量外,临床医生的接受度和患者的适用性也决定了模型能否被采用。为了提升预测模型的实际应用价值,作者参考文献经验并结合自身医学与统计学实践,提出了构建和应用临床预测模型的12个关键性建议。
作者指出,开发预测模型前对其临床需求及应用前景进行合理评估至关重要。一方面,要确保模型通过切实解决与特定医疗场景相关的问题来体现其价值;另一方面,开发前需明确现有模型的适用性,如若已有外部验证表现良好的模型,需优先考虑对其进行更新,而非投入大量资源开发新模型。此外,模型在真实场景下的可用性,如预测变量是否易获取、模型复杂性是否阻碍医生接受等问题也需被全面评估。文章以模型Ovarepred(用于评估女性卵巢储备)为例说明了需求识别的重要性。
临床与统计学视角的综合考量是选择预测因子的关键。文章强调,应优先选择在文献中明确具有预后价值的变量,这些变量需定义客观,具有可重复性与良好的测量标准化程度。例如,作者提到Ovarepred模型开发过程中,由于抗穆勒管激素(AMH)在不同医院间可能因设备差异导致测量值不一致,他们通过回归模型建立了转换关系以统一数据标准。作者还指出,对变量主观性强的因子(如影像学评估)需谨慎使用,并建议设计简单但性能无显著削弱的模型以提高其实际应用性。
文章详细探讨了样本量在预测模型构建中的作用。作者比较了以往通用的经验规则(如”每参数10事件”原则)与理论计算方法,指出后者在考虑因素广泛性上更具有合理性,但现实操作中仍面临显著挑战,例如难以获取先验参数值。一份样本量表格清晰展示了不同参数数量、事件比例和模型C统计量下的样本量要求。作者以临床为例计算了针对特定性能的预估样本量,并建议机器学习方法需以尽可能大的样本量为宜,以避免偏倚与过拟合。
预测模型在依赖医院真实数据(如电子病历与实验室信息系统)时难免面临数据缺失与异常问题。作者对不同缺失机制(包括随机缺失MCAR、依变量缺失MAR及非随机缺失MNAR)的处理方法进行了分析。模拟实验表明,多重插补(Multiple Imputation, MI)在大多数情况下表现良好,尤其当缺失与协变量相关时可显著减少模型偏倚。此外,对于异常值,作者推荐在检测后分析其成因,因数据录入错误导致的异常值应修正,而非错误导致的异常值则可考虑剔除以提高数据质量。
连续型变量通常需要变换或分箱以适应模型线性假设。文章提到像分位数划分这样的简单方法尽管易操作,但可能损失大量信息,较优选的做法是采用分段回归(RCs)或分数多项式等更灵活的方式捕捉变量与结果间的非线性关系。然而,作者也提出从临床实用性角度出发,分箱在模型解释性上具有明显优势,特别在其性能与灵活方法差异不大的情形下,更易被接受和应用。
文章细致比较了回归模型与机器学习方法的优劣。回归模型(如Lasso回归)在拥有较高解释性的情况下,易于被临床医生理解及采用;而机器学习方法(如随机森林、XGBoost)尽管在复杂数据处理上优势显著,但因其有限的透明度阻碍了实际推广。作者强调,模型选择需根据研究目的平衡性能与解释性,并提醒对机器学习模型能力的过度解读可能造成误导。特别是在低维数据场景下,回归模型与机器学习方法实际表现差距可能并不显著。
性能评估是预测模型开发的重要环节,文章从区分性(discrimination)和校准性(calibration)两方面展开。区分性评估中常用的AUC(受试者操作特性曲线下面积)尽管直观,但在样本比例失衡时可能不够准确。为了避免单一指标的片面性,文章建议联合使用灵敏度、特异度、F1分值及Matthews相关系数等多指标。此外,为保障实际风险预测的临床意义,校准性的评估同样关键,文章推荐通过校准图与综合校准指标(ICI)进行验证。
验证是确保模型可复现性与可迁移性的必要环节。文章指出随机拆分法虽易操作,但可能导致样本不足,推荐使用如交叉验证、Bootstrap等更稳定的再抽样技术进行内部验证。外部验证方面,尽管地理验证最为理想,但因其对资源需求较高,文章提出在数据本身已具代表性的情况下,时间验证同样可作为有效补充。文章还提出模型推广需重视专家支持及实际推广路径,例如通过领域权威的推荐,提升模型在医疗机构中的应用。
模型在外部验证失败时,不应轻易废弃,文章详细介绍了基于回归模型的更新方法,如简单再校准、新增变量扩展及动态更新等。动态更新模型(通过贝叶斯建模或动态模型平均)被强调为应对时间变化的关键技术。此外,作者通过实际研究,指出效应研究可通过前后对比或真实世界数据方式初步验证模型对临床行为、患者结局及医疗成本的影响,再根据其结果评估是否需开展进一步的RCT。
这篇文章从多维度系统性地总结了临床预测模型开发与应用过程中的关键问题与实践建议,具有广泛的指导意义。其提出的12项建议不仅从理论上填补了模型开发与实际应用之间的空白,也通过大量实际案例提供了可操作性强的方法与经验,为未来医疗预测工具的开发提供了宝贵参考。这一框架还对随着人工智能及医学统计技术发展的医学模型领域具有重要的前瞻性意义。