本文作者是Maya L. Petersen与Mark J. van der Laan,均来自加州大学伯克利分校公共卫生学院生物统计学与流行病学系。该文章于2014年5月发表在期刊 Epidemiology 上,标题为“Causal models and learning from data: Integrating causal modeling and statistical estimation”。文章的核心议题是论证形式化因果推理框架在应用流行病学研究中的效用,并提出一个将因果建模与统计估计系统整合的路线图,旨在澄清因果模型能做什么、不能做什么,以及如何帮助研究者更严谨地设计分析和解释结果。
文章首先指出,流行病学的本质是探究因果问题,仅描述疾病与暴露的模式不足以改善健康。尽管因果思维在历史上通过关注混杂因素等方式已得到体现,且过去几十年中形式化因果框架(如因果图、反事实理论)取得了重大进展并在某些特定应用(如选择调整变量、定义纵向处理效应)中变得常见,但其在流行病学中的更广泛潜力尚未充分发挥。目前,关于形式化因果思维在应用流行病学中的适当角色仍存在争议。本文的论点在于,一个形式化的因果框架能够帮助设计统计分析,使其尽可能接近回答动机性的因果问题,同时清晰地阐明需要哪些假设才能赋予所得估计以因果解释。
文章的主体部分详细阐述了一个进行因果推断的通用路线图,包含七个步骤。该路线图构成了本文最核心的框架和主要观点。
第一个主要观点:构建一个准确表达知识及其局限性的因果模型是因果推断的起点。 文章主张采用结构因果模型(Structural Causal Model, SCM)作为统一框架,它融合了反事实、结构方程和因果图(特别是有向无环图,Directed Acyclic Graph, DAG)的语言。因果图通过箭头(表示可能的直接影响)和双箭头(表示未测量的共同原因)来编码知识。例如,省略一个箭头代表“排除限制”假设(如知道随机分配本身不影响结局,仅通过依从性影响);省略双箭头代表“独立性假设”(如随机分配与任何其他变量没有未测量的共同原因)。这些知识同样可以用一组结构方程来表示,其中每个变量是其父节点和一组未测量背景因素的函数。SCM的优势在于其灵活性,它可以容纳关于因果关系是否存在、未测量背景因素的分布以及因果关系函数形式等方面的巨大不确定性,从而尽可能避免无根据的假设,真实描述数据生成过程。
第二个主要观点:明确观察数据及其与因果模型的联系,是连接因果建模与统计估计的桥梁。 研究者必须指定观察数据是如何从因果模型描述的系统中生成的。例如,数据可能是从目标人群中独立随机抽取的n个个体的基线协变量(W)、暴露(A)和结局(Y)的测量值。如果因果模型准确,那么观察数据可被视为从相应方程系统中独立同分布抽取的。更复杂的抽样方案(如基于暴露或结局状态抽样)可以通过修改数据与模型的链接或在因果模型中直接纳入选择机制来处理。因果模型对观察数据的联合分布可能施加可检验的限制(例如,随机分配独立于基线协变量),从而意味着一个半参数统计模型;也可能不施加任何限制,意味着一个非参数统计模型。统计模型应反映关于数据生成过程的真实知识,确保包含观察数据的真实分布。
第三个主要观点:使用反事实语言明确表述目标因果量,确保科学问题驱动数据分析设计。 这一步要求研究者精确定义一个理想的实验(干预),以及在此干预下感兴趣的对比。例如,常见的平均处理效应(Average Treatment Effect, ATE)定义为E[Y(1) - Y(0)],其中Y(a)表示将暴露A设定为a时的反事实结局。这对应着一个“让所有人接受治疗 vs. 让所有人都不接受治疗”的理想实验。但目标量可以复杂得多,例如“现实的”动态干预(根据个体特征决定处理分配)、随机干预(改变暴露分布而非固定值)、多节点干预效应或中介效应等。将科学问题转化为反事实目标参数,可以防止分析设计被数据可得性或统计惯例所左右。
第四个主要观点:利用因果模型评估可识别性,明确将因果问题转化为统计估计量所需的条件。 目标因果量是反事实分布的参数,通常是不可观测的。如果基于因果模型和观察数据链接的假设,该目标量可以表达为纯粹观察数据分布的参数(即一个估计量),则称其为可识别的。SCM为评估可识别性和推导估计量提供了通用工具。一个熟悉的例子是使用因果图的“后门准则”来选择合适的调整变量集。当一组预干预协变量W能够阻断暴露A到结局Y的所有未阻断的后门路径时,反事实分布Y(a)可通过g-计算公式(G-computation formula)识别。该公式在随机化假设(给定W, Y(a)独立于A)下也成立。文章通过图例说明,在某些图结构(如图2d, 2e)中可识别,而在另一些(如图2a, 2b)中则不可识别。对于更复杂的因果问题(如中介分析、纵向处理、存在信息性删失等),需要不同的可识别性结果,这通常会催生新的估计量,从而启发不同的统计分析策略。
第五个主要观点:基于可识别性分析,承诺一个统计模型和估计量,并清晰区分基于知识的假设和基于便利的假设。 应用形式化框架常迫使研究者承认,现有知识和数据不足以实现可识别性——这本身就是一个有价值的结论。当需要基于现有数据提供“当前最佳”答案时,文章建议采取以下策略:首先,基于真实知识(知识性假设)确定一个统计模型,确保其包含真相。其次,选择一个估计量,该估计量在最少量的、非基于真实知识的便利性假设下,等同于目标因果量。最后,清晰区分这两类假设。例如,若真实知识对应图2a(混杂未完全测量,效应不可识别),但研究者愿意引入图2d或2e的便利性假设(即测量变量足以控制混杂),则可选择g-计算公式的统计类似物作为估计量。这种处理方式使得分析在尽可能接近科学问题的同时,对赋予因果解释所需的额外假设保持透明。
第六个主要观点:一旦统计模型和估计量确定,估计本身就是一个纯粹的统计问题,应基于统计性质选择估计方法。 因果框架确定了“估计什么”,而“如何估计”则属于统计范畴。对于同一个估计量(如ATE的g-计算公式形式),存在多种估计方法,包括基于逆概率加权、倾向得分匹配、回归调整以及双稳健高效方法(如靶向最大似然估计,Targeted Maximum Likelihood Estimation)。文章强调,这些方法本身并无“因果性”高低之分,但它们在统计性质(如偏倚、效率、对模型误设的稳健性)上存在重要差异,这些差异在常见场景(如强混杂)中可能导致显著的性能差别。选择估计方法应基于其统计性质和在实际应用条件下的表现评估。文章特别提及了数据自适应估计和靶向估计的相关文献,以应对高维或连续协变量下非参数估计的挑战。
第七个主要观点:因果框架的使用使得从统计解释过渡到因果解释所需的假设变得明确且易于理解,从而建立了一个分层次的解释体系。 分析结果首先可以有一个纯粹的统计解释。例如,对g-计算公式估计量的估计值,可以解释为对具有相同观测基线协变量值的暴露与非暴露对象之间平均结局差异(按协变量总体分布平均)的估计。在此基础上,如果研究者愿意接受额外的因果假设(如测量变量足以控制混杂,对应图2d或2e),则可以进一步赋予其因果解释(如平均处理效应)。如果干预对应于现实世界中可设想且定义明确的行动,且满足其他条件(如可迁移性),解释甚至可以扩展到预测该干预在实际实施中的效果。这个解释层级使得研究者和读者能够基于具体应用情境,清晰地了解决策每一步所需的假设,这些假设用因果图表示时尤其易于被领域专家理解。
文章在结论部分回应了流行病学界对形式化因果工具的常见担忧,即担心其导致对观察数据估计因果效应的过度自信,以及复杂符号和统计方法淹没常识。作者们恰恰认为,恰当使用的形式化因果框架是防止这种混淆和过度解释的强大工具。它迫使研究者明确知识局限、区分因果推断与统计估计过程,并保证结果解释严格尊重知识的边界。好的流行病学实践要求我们尽可能了解数据生成过程、明确问题、设计能利用现有数据最好地回答该问题的分析、避免或最小化缺乏知识支持的假设,并对结果解释保持透明和怀疑。文章主张,常规使用形式化因果建模将有助于将这些基本原则整合到应用流行病学中,从而提高研究质量。
本文的价值在于,它并非提出一项新的具体统计技术,而是提供了一个清晰、系统、具有高度操作性的方法论框架和思维路线图。它将散落在不同文献中的因果推理概念(SCM、DAG、反事实、可识别性、估计)整合成一个连贯的、逐步递进的工作流程。这对于在应用研究中如何具体地、严谨地践行因果推断具有重要的指导意义。文章特别强调了“透明度”和“谦逊”——通过区分知识性与便利性假设、建立解释层级,使研究的局限性一目了然,从而在追求因果答案的同时,守住科学推理的严谨性。该文对于希望在现代因果推断框架下进行和评估观察性研究或复杂试验数据分析的流行病学家、生物统计学家及相关领域研究者而言,是一篇重要的方法论指南和立场声明。