本研究由北京大学的Zhen Wang、Dan Zhu、Xuhui Wang、Yao Zhang和Shushi Peng共同完成,以“Regressions underestimate the direct effect of soil moisture on land carbon sink variability”为题,以“Letter to the Editor”的形式发表于Global Change Biology期刊,在线发表日期为2022年。
一、 研究背景与目标
本研究属于全球变化生态学与生物地球化学循环交叉领域,具体关注陆地生态系统碳汇年际变异性的驱动机制。陆地生态系统碳汇(即净生物群系生产力,Net Biome Production, NBP)具有显著的年际变率,其驱动机制是理解全球碳循环与气候系统反馈的关键,也是当前研究的热点。近期,Humphrey等人于2021年在《自然》(Nature)杂志发表研究,利用气候模型和多元线性回归(Multiple Linear Regression, MLR)方法对NBP年际变率进行归因分析。他们的结论指出,土壤湿度(Soil Moisture, SM)通过陆地-大气耦合对饱和水汽压差(Vapor Pressure Deficit, VPD)和气温(Air Temperature, T)产生的间接效应,而非SM对光合作用和呼吸作用的直接效应,主导了NBP的年际变率。然而,在统计学中,当自变量之间存在强共线性时,MLR的参数估计可能存在问题,导致结果解释出现偏差。
因此,本研究的核心目标是:评估Humphrey等人所使用的MLR方法在存在强共线性条件下的有效性,并重新审视SM对陆地碳汇年际变异性的直接效应是否被低估。研究旨在通过过程模型与统计方法的对比,揭示统计方法在归因分析中的潜在缺陷,并对“SM间接效应主导”这一结论提出质疑。
二、 研究设计与详细流程
本研究采用了“模型真相”与“统计推断”相互验证的严谨框架,主要包含以下几个步骤:
第一步:建立“模型真相”基准 为了获得SM对NBP年际变率直接效应的“真实”贡献,研究者利用了一个成熟的陆地生物圈模型——ORCHIDEE-MICT。他们设计并进行了两组数值模拟实验: 1. 控制实验(Control Run, CTRL):模型在真实气候强迫(CRUNCEP-v8数据集)、逐年变化的CO2浓度和土地利用图下运行,模拟出包含SM自然年际波动的NBP序列。 2. 土壤湿度气候态实验(Experiment with Prescribed Climatological SM, EXP):在此实验中,移除了SM的年际变率。具体做法是,将CTRL实验模拟得到的多年平均月平均土壤湿度场作为强迫数据,逐年重复输入模型,从而“关闭”SM的年际波动,但保留其他气候变量(如VPD、T、太阳辐射R)的年际变化。
通过对比这两组实验的结果,可以直接量化SM年际变率对NBP年际变率的贡献。计算指标为:对于每个网格点i,计算 Var(NBP_ctrl,i - NBP_exp,i) / Var(NBP_ctrl,i)。这个比值被定义为SM对NBP年际变率直接效应的“真实”贡献(即“模型真相”)。该方法的逻辑在于,通过“有-无”SM年际变化的对比,直接分离出其影响,这符合因果推断中反事实分析的思想。
第二步:应用统计方法进行归因 研究者将Humphrey等人使用的MLR方法应用于第一步中CTRL实验的输出数据上。他们构建了一个四预测变量的回归模型:NBP的年际异常被分解为由SM、VPD、T和太阳辐射(R)四个气候变量驱动的加性组分。其中,回归模型中SM项所解释的方差份额,被解读为SM的“直接效应”。这是为了模拟Humphrey等人的分析流程,以便进行直接比较。
第三步:方法比较与偏差评估 这是本研究的关键环节。研究者将第二步中MLR方法估计出的SM“直接效应”贡献度,与第一步中通过过程模型对比实验得到的“模型真相”贡献度,在全球每个陆地网格点上进行逐一比较。如果MLR方法完美有效,那么两种方法得出的SM贡献度应该高度一致。
第四步:诊断问题根源并测试改进方法 当发现MLR估计存在系统性偏差后,研究者进一步分析了偏差产生的原因。他们对四个预测变量(SM、VPD、T、R)进行了两两相关性分析,以检验共线性问题。随后,为了验证共线性是否是导致MLR估计偏差的主要原因,他们引入了岭回归(Ridge Regression)这一专门用于处理共线性问题的回归技术。岭回归通过在损失函数中加入一个惩罚项(正则化项,ridge parameter),来约束回归系数的大小,从而在存在共线性的情况下获得更稳定、偏差更小的估计。研究者将岭回归应用于同样的CTRL实验数据,并调整岭参数(研究中选定为10),以期获得更接近“模型真相”的SM贡献度估计。
第五步:综合分析与论证 最后,研究者综合比较了MLR、岭回归结果与“模型真相”之间的差异,从空间格局和统计分布上评估了不同方法的性能。并通过分析共线性强度与估计偏差之间的关系,构建了完整的证据链,论证其核心观点。
三、 主要研究结果
多元线性回归(MLR)系统性低估了SM的直接效应:对比结果显示,在SM主导的区域(即“模型真相”显示SM贡献度超过50%的网格),MLR方法估计的SM直接贡献率平均仅为50%,而过程模型给出的真实贡献率平均高达71%。两者存在显著的不一致性(图1a-c)。这意味着,Humphrey等人基于MLR得出的“SM直接效应很小”的结论,很可能是方法缺陷所致,而非真实的自然机制。
共线性问题是导致低估的主要原因:对预测变量的相关性分析提供了关键证据。研究发现,VPD与T、R、SM之间均存在广泛而强烈的相关性。例如,在全球98%的陆地网格上,VPD与T的皮尔逊相关系数绝对值大于0.5;VPD与SM的相关性也达到了48%的网格面积。这种强的共线性违反了MLR的基本假设,导致回归系数估计不可靠、方差被错误分配。空间分析进一步表明,预测变量间共线性更强的区域,MLR估计的SM贡献度与“模型真相”之间的不一致性往往更大(图S3)。
岭回归显著改善了估计效果:作为对比,岭回归的结果显示,其对SM直接效应的估计更接近于“模型真相”。在SM主导区域,岭回归估计的平均SM贡献率从MLR的50%提升至62%,大大缓解了低估问题(图1d-e)。更重要的是,这种改善并未以牺牲模型的整体拟合优度为代价(图S4)。这一结果从正面强化了论证:当采用一种能缓解共线性的统计方法时,SM直接效应的估计值会增大,并更接近过程模型揭示的“真实”情况。这反过来证明,原先MLR的低估确实是由共线性问题引起的。
对Humphrey等人结论的质疑得到支持:综合以上结果,研究指出,由于Humphrey等人使用的耦合气候模型中,SM与VPD等变量的耦合反馈更强,其预测变量间的共线性问题可能比本研究中使用的离线模型更为严重。因此,他们在MLR分析中因共线性而低估SM直接效应的可能性极高,这动摇了其“间接效应主导”核心结论的可靠性。
四、 研究结论与意义
本研究得出明确结论:常用的多元线性回归方法,由于难以处理气候变量间固有的强共线性,会严重低估土壤湿度对陆地碳汇年际变异性的直接效应。 Humphrey等人(2021)的研究结论可能因这一方法学局限而产生偏差。陆地碳汇年际变率的主导驱动因子问题,因此仍需进一步探究。
本研究的价值体现在科学和方法学两个层面: * 科学价值:它重新打开了关于陆地碳汇年际变率主导机制的科学辩论。研究结果表明,土壤湿度通过生理过程(如气孔导度、微生物活性)对碳通量产生的直接控制作用,可能比之前认为的更为重要。这对于准确理解和模拟陆地碳循环与气候系统的反馈至关重要,尤其在全球干旱半干旱区域变化加剧的背景下。 * 方法学价值:这是一次出色的“模型作为实验室”的示范。研究创新性地利用过程模型能够进行可控反事实实验的优势,为评估统计归因方法的可靠性提供了一个基准“真相”。它强有力地提醒学界,在应用统计方法进行气候-碳循环因果关系归因时,必须谨慎对待其基本假设(如变量独立性),并建议在可能的情况下,利用过程模型或其它独立手段对统计结果进行验证。研究也展示了岭回归等正则化方法在处理此类问题中的潜在优势。
五、 研究亮点
六、 其他有价值的内容
作者在讨论部分提出了一个更具普遍性的建议:在利用统计方法解释气候-碳循环关系时,应尽可能先用过程模型验证该统计方法在“模型世界”中再现已知因果关系的能力,然后再将其应用于观测数据。这为未来相关研究提供了一个重要的质量控制思路。此外,本研究的所有模型实验数据均已公开,保证了研究的可重复性和透明性。