本研究由来自哥伦比亚大学梅尔曼公共卫生学院流行病学系的 Nicholas T. Williams(第一作者/通讯作者)、Katherine L. Hoffman、Kara E. Rudolph 以及纽约大学格罗斯曼医学院人口健康科学系生物统计学部的 Iván Díaz 共同完成。该研究于2024年6月14日在线发表于《美国流行病学杂志》(American Journal of Epidemiology)第193卷第12期。
这是一项在因果推断和精准医学领域的研究。研究的学术背景在于,流行病学中常用的平均处理效应(Average Treatment Effect, ATE)虽然能够评估一个治疗在人群中的平均效果,但它无法揭示治疗效果的异质性,即无法告知该治疗对特定个体是否有益。在临床实践中,治疗方案往往是动态的,需要根据患者的基线特征和随时间变化的临床状况进行一系列调整,而非单一决策。因此,基于个体历史信息来动态分配治疗,以最大化患者获益的策略,被称为最优动态治疗规则(Optimal Dynamic Treatment Rule, ODTR)。尽管ODTR的理论和估计方法已有发展,但面向应用研究者的、关于如何从纵向数据中估计时间依赖性ODTR的实用教程和软件工具相对缺乏,这限制了其在流行病学中的广泛应用。本研究旨在填补这一空白,为应用研究者提供一个关于如何使用双重稳健(Doubly Robust, DR)方法从纵向观察性或临床试验数据中估计时间依赖性ODTR的详细教程,并通过一个关于阿片类药物使用障碍(Opioid Use Disorder, OUD)治疗的具体实例来展示其应用价值。
研究的详细工作流程包括概念介绍、方法论阐述和应用分析三个主要部分。
首先,研究团队清晰地定义了静态治疗规则与动态治疗规则(Dynamic Treatment Rule)的区别。静态规则是为所有个体分配相同的治疗,不考虑个体差异;而动态规则则是根据个体的特征历史(V)来决定治疗分配。当治疗决策涉及多个时间点时,就产生了时间依赖性动态治疗规则序列。最优动态治疗规则(ODTR)则是在所有可能的动态规则中,能够最大化(对于有益结局)或最小化(对于有害结局)人群反事实结局期望值的那个规则。研究目标参数ψ定义为在应用ODTR下的反事实结局期望值。
其次,在方法论部分,研究重点介绍了一种基于双重稳健无偏变换的回归方法来估计ODTR。对于单一时间点的情况,核心是估计条件平均处理效应(Conditional Average Treatment Effect, CATE),也称为blip函数。研究者没有使用简单的“回归替代”估计量,而是采用了增强逆概率加权(Augmented Inverse Probability Weighting, AIPW)变换来构造blip函数的无偏估计。这种方法被称为双重稳健,因为它需要同时估计两个模型:结局模型(Q模型,用于预测给定历史和治疗的结局期望)和倾向评分模型(G模型,用于估计给定历史下接受观测治疗的概率)。只要这两个模型中有一个被正确指定,就能得到blip函数的一致估计,这为使用灵活的数据自适应机器学习算法建模并保持统计推断的有效性提供了保障。算法1详细描述了估计单时间点ODTR的步骤:先拟合Q和G模型,计算AIPW变换值,然后将此变换值对变量V进行回归以估计blip函数,最后根据blip函数的符号决定最优治疗规则。
对于更复杂的、涉及多个时间点的纵向数据,研究描述了如何将上述方法进行扩展,形成一种“向后递归”的估计策略。如算法2所示,流程从最后一个时间点τ开始:首先,像单时间点案例一样,使用该时间点的数据和AIPW变换估计该点的最优规则 dτ,opt。然后,将“伪结局”定义为:假设从下一个时间点开始都遵循已估计的最优规则时,在当前时间点的期望结局。接着,将时间点回退到τ-1,使用更新后的“伪结局”作为新的结局变量,重复上述单时间点估计过程,以估计 d(τ-1),opt。如此递归进行,直至第一个时间点,最终得到整个时间范围内的最优规则序列 d_opt = [d_1,opt, …, d_τ,opt]。研究提到有现成的R软件包(lmtp)可用于实现此方法。
第三,作为方法的应用实例,研究团队将上述框架应用于一个现实世界的临床问题:学习一个随时间变化的最优规则,以决定在阿片类药物使用障碍(OUD)患者治疗的前6周内,何时增加丁丙诺啡-纳洛酮(Buprenorphine-Naloxone, Bup-Nx)的剂量,从而最小化患者“恢复规律性阿片类药物使用”(Return to Regular Opioid Use, RROU)的风险。数据来源于美国国家药物滥用研究所临床试验网络(NIDA CTN)中三项比较效果试验的Bup-Nx治疗组,共包含2199名患者(2006-2017年)。时间依赖性治疗变量是“是否比前一周增加了最大周剂量”(二元变量)。结局是到第6周时发生RROU。分析中控制了包括人口学特征、药物使用史、精神病史等基线混杂因素,以及前一周的阿片类药物使用情况和最近处方剂量等时间依赖性混杂因素。
在具体分析流程中:1. 使用离散超级学习器(Discrete Super Learner)和交叉拟合来灵活地估计每个时间点的Qt和Gt模型,基学习器包括L1正则化回归、多元自适应回归样条和梯度提升。2. 使用L1正则化回归来估计每个时间点的blip函数Bt(V)。3. 应用纵向序贯双重稳健估计量来估计在三种不同给药策略下第6周RROU的反事实风险(ψ):(a) 恒定剂量规则(3周后保持剂量不变,d0);(b) 临床定义的动态规则(若前一周使用阿片类药物则增加剂量,d1);© 从数据中学到的最优动态规则(d_opt)。4. 使用风险比(Risk Ratio, RR)比较不同策略的效果,并使用影响函数方差估计计算置信区间。
研究的主要结果如下: 在ODTR学习结果方面:表3显示,基于交叉拟合学到的ODTR(d_opt)建议在第2、4、5周对部分患者增加剂量,而在第3周建议大多数患者保持剂量不变。然而,在没有交叉拟合的情况下学到的ODTR(表中“based on the ODTR learned without cross-fitting”行)则建议在第2、4、5周对所有患者增加剂量,在第3周对所有患者保持剂量不变。对Bt(V)模型的检查发现,没有变量被选为重要特征,模型退化为仅包含截距项,这意味着在当前分析的数据和变量集下,最优规则简化为“在特定周是否对所有患者都增加剂量”,而不依赖于个体特征V。这可能反映了在治疗早期普遍提升剂量至有效阈值的重要性。
在反事实结局风险比较方面:估计显示,与恒定剂量规则(d0)相比,采用学到的ODTR(d_opt)可以将第6周的RROU风险降低16.6%(RR = 0.83, 95% CI: 0.68-1.02)。采用临床定义的动态规则(d1)可将风险降低10.5%(RR = 0.90, 95% CI: 0.84-0.96)。虽然学到的ODTR比临床规则多降低了6.8%的风险(RR = 0.93),但这一差异在统计学上不显著(95% CI: 0.77-1.13)。
本研究得出的结论是,平均处理效应(ATE)作为一种因果效应度量具有局限性,它掩盖了可能对改善特定患者亚群治疗结果至关重要的治疗效果异质性。尽管存在估计最优治疗规则的先进方法,但其理论文献往往不易为应用研究者所掌握。本研究通过提供关于动态治疗规则和最优动态治疗规则的直观解释,并展示一个用于估计单时间点及时间依赖性ODTR的双重稳健、灵活建模算法,成功弥补了这一差距。在阿片类药物使用障碍(OUD)治疗的实际应用中,学习到的最优动态治疗规则(ODTR)显示出比恒定剂量策略更能降低复发风险的潜力,其效果与一个预设的、基于前一周用药情况的临床动态规则相当。尽管在本实例中学到的规则相对简单(可能反映了在治疗早期普遍增加剂量的必要性),但该方法允许使用任何机器学习回归技术,具备学习更复杂、个体化规则的能力。
本研究的亮点在于:1. 重要的方法论贡献:为流行病学和应用研究者提供了一个清晰、可操作的学习纵向最优动态治疗规则(ODTR)的教程,降低了先进因果推断方法的应用门槛。2. 双重稳健与灵活性:所介绍的基于AIPW变换的DR估计量具有双重稳健性,允许研究者使用数据自适应的机器学习算法来拟合复杂的Q和G模型,而不必过度担心模型误设,同时能进行有效的统计推断。3. 实用的软件支持:研究提到了可用的R软件包(lmtp),并提供了复现分析的代码,极大增强了方法的实用性。4. 具有公共卫生重要性的应用实例:将方法应用于阿片类药物使用障碍(OUD)这一重大公共卫生问题,展示了ODTR在优化药物治疗方案、实现精准医疗方面的直接应用价值。5. 对现有临床策略的评估:不仅学习了新规则,还定量评估了其相对于现有临床规则的效果,为临床决策提供了数据驱动的参考。
此外,研究在讨论部分还指出了其他有价值的方向:例如,存在多种估计ODTR的算法(如Q-learning、A-learning、结果加权学习等),它们的有限样本表现可能不同,可以考虑使用ODTR集成学习(ODTR ensembles)方法让多种算法“竞争”以自适应选择最佳策略。同时,所述方法可以扩展到处理多分类治疗、资源限制、有信息删失和生存结局等更复杂的情境。这些拓展性讨论为有兴趣深入探索的研究者提供了进一步阅读的指引。
这项研究成功地架起了因果推断理论与流行病学实践之间的桥梁,通过详尽的教程和生动的案例,推动了最优动态治疗规则这一精准医学核心工具在实证研究中的理解和应用。