本研究由Yann Y. Planton(莫纳什大学,NOAA太平洋海洋环境实验室),Jiwoo Lee(劳伦斯利弗莫尔国家实验室),Andrew T. Wittenberg(NOAA地球物理流体动力学实验室),Peter J. Gleckler(NOAA太平洋海洋环境实验室),Éric Guilyardi(LOcean-IPSL,NCAS-Climate),Shayne McGregor(莫纳什大学),Michael J. McPhaden(NOAA太平洋海洋环境实验室)共同完成。研究成果以题为《Estimating uncertainty in simulated ENSO statistics》的论文形式,于2024年发表在《Journal of Advances in Modeling Earth Systems》期刊上(卷16,文章ID e2023MS004147)。
该研究隶属于气候科学和气候建模领域,特别是关注地球系统模型评估中的不确定性问题。研究的背景源于一个核心挑战:地球气候系统存在显著的内在变率(internal variability),其时间尺度从季节内到年代际不等。这种自然波动会混淆对气候模型性能的评估,也使得在气候变化的背景下检测真实的趋势(例如厄尔尼诺-南方涛动(El Niño–Southern Oscillation, ENSO)特征的长期变化)变得困难。为了减少内在变率的影响,科学家们通常使用气候模拟的“大样本集合”(large ensembles),即同一模型在相同外部强迫(如温室气体排放)下、从不同初始条件启动的多组并行模拟。然而,一个关键的实际问题是:需要多少集合成员(ensemble size)或多长的模拟时间(run duration)才能将采样不确定性降低到可接受的范围内,从而可靠地评估模型偏差或检测气候变化信号?先前的研究多采用对现有大集合进行随机采样的方法来确定所需集合规模,但这依赖于已有的、有限的大集合,且计算过程复杂。本研究旨在提出一种基于经典统计理论的、互补的、可“先验”估计不确定性的方法,以指导未来集合实验的设计和现有计算资源的优化利用。具体目标包括:1)利用耦合模式比较计划第六阶段(CMIP6)的大样本集合,分析ENSO关键区域(尼诺3区,Nino3)的海表面温度(Sea Surface Temperature, SST)和降水(precipitation, PR)统计量(均值、方差、偏度)的采样不确定性;2)验证并应用统计理论公式,量化不确定性如何随集合规模和用于计算的时段长度(epoch length)变化;3)评估是否可以利用工业革命前控制试验(pre-industrial control, piControl)的模拟来估计历史试验(historical run)中统计量的不确定性,从而在历史模拟进行之前就预估所需的集合规模;4)提供一个简单易用的框架和方程,供其他研究者在设计自己的模拟实验时,估算为达到特定精度目标所需的模拟年数(总时长和/或集合大小)。
研究的工作流程详细而系统,主要包括以下几个步骤:
第一步,数据准备与诊断量定义。 研究团队从CMIP6数据库中选取了59个模型配置的piControl和historical模拟数据,这些模型的piControl模拟时长均至少为300年。其中,有26个模型被归类为“大样本集合”(至少拥有10个historical成员)。所有数据均为月平均资料。观测数据则使用了1985-2014年间的全球降水气候计划月分析产品(GPCP v2.3)和NOAA最优插值海表面温度数据(OISST v2)。研究所关注的诊断量是描述ENSO特征的三个基本统计矩:均值、方差和偏度。具体针对尼诺3区(90°W–150°W,5°S–5°N)的平均海温(N3 SST)和降水(N3 PR)进行计算。对于方差和偏度,计算前需去除季节循环和线性趋势。这些计算通过CLIVAR ENSO Metrics Package(一个专门用于评估ENSO模拟性能的软件包)实现,并集成在PCMDI Metrics Package框架中执行。
第二步,构建统计量分布以表征不确定性。 这是方法论的核心。为了量化统计量(如N3 SST均值)由于内在变率而产生的波动范围,研究团队采用了两种方式构建其经验分布。对于piControl模拟(代表无外强迫变化下的内在变率),他们将长时段的模拟分割成多个互不重叠的固定长度“时段”(例如30年、45年……直至150年)。在每个时段上独立计算统计量,然后将所有时段得到的统计量值汇集形成一个分布。这个分布的宽度(标准差)就反映了仅由内在变率导致的、统计量在不同时期可能出现的自然变化范围。对于historical集合(受时变外强迫影响),他们采用“滑动窗口”法:对于给定的时段长度(如30年),在每个集合成员的时间序列上,从起始年开始,依次滑动(步长5年)截取时段并计算统计量。这样,对于每个滑动窗口位置,所有成员在该窗口计算的统计量值构成一个分布。由于historical模拟覆盖165年(1850-2014),这种方法可以生成数十个这样的分布,从而更全面地捕捉不同时期统计量的集合内变化。
第三步,应用统计理论公式连接分布特征与不确定性。 研究的关键在于将上述经验分布的特征与“集合均值的不确定性”(uncertainty of the ensemble mean, Δ)联系起来。他们依据经典统计理论,假设单个集合成员计算出的统计量服从正态分布(由中心极限定理支持),则集合均值μ的95%置信区间可以表示为:Δ = 1.96 * (eσ / √n)。其中,eσ是集合内统计量分布的标准差(即前述步骤中得到的分布宽度),n是集合成员数量(或对于单条长序列piControl,是独立时段的数量)。这个公式(文中方程9)是本研究提出的核心工具。它意味着,只要知道一个模型在某个统计量上的内在变率强度(eσ),就可以直接计算出给定集合大小(n)下集合均值的不确定性(Δ)。反之,如果预设一个可接受的不确定性目标(Δ),也可以反推出所需的集合成员数量(n,文中称为所需集合规模,required ensemble size, RES),即RES = (1.96 * eσ / Δ)^2(文中方程10)。
第四步,系统验证与分析。 研究团队利用CMIP6的多个大样本集合,从多个维度验证上述理论框架的可靠性,并得出重要结论。 首先,他们验证了不确定性(Δ)与集合规模(n)的关系。通过从每个大集合中随机抽取不同数量的成员子集(从10个到全部成员),计算其Δ值,并与理论预测(Δ应随1/√n减小)进行对比。结果发现,几乎所有模型、所有统计量(N3 PR和SST的均值、方差、偏度)以及所有时段长度的结果,都近乎完美地落在这条理论曲线上。唯一的例外是MPI-ESM1-2-LR模型的piControl模拟在计算N3降水方差时,因模拟中出现了极端的、统计学上罕见的强降水事件(异常值),导致小样本子集的Δ偏离理论。这一验证有力地证明了方程9的有效性,并表明即使集合规模不大,该理论关系依然成立。这为模型开发者提供了一个清晰的指导:若要将集合均值的不确定性减半,需要将集合规模扩大四倍。
其次,他们分析了不确定性(Δ)与计算时段长度(epoch length)的关系。理论预测,对于时间序列,统计量的标准误差随独立样本数(有效自由度)的平方根减小,而有效自由度通常与时段长度成正比。因此,Δ应随√(时段长度)减小。分析显示,对于大多数模型和统计量,这一趋势大致成立,但符合程度不如集合规模关系那样完美,且模型间差异更大。特别是对于N3 SST均值和N3降水偏度,部分模型的Δ随时段长度缩短而下降的速度慢于理论预期(甚至不降反升)。作者分析可能的原因包括:1)某些统计量(如偏度)的样本分布本身偏离正态分布,影响标准误差公式的适用性;2)集合规模不够大时,随机性可能导致偏离;3)气候系统可能存在年代际调制,使得不同时段的内在变率特征并非完全稳定。一个重要的发现是,对于多模型集合(CMIP6-MME),增加单个模型的时段长度并不能减少其Δ,因为多模型集合的Δ主要源于模型间的系统差异(模型偏差),而非单个模型的内在变率。这表明,要检测多模型集合中的气候变化信号,信号本身需要足够大以超越模型间的差异。
接着,他们比较了piControl和historical模拟中计算得到的不确定性(Δ)。这是检验“能否用piControl预估historical所需集合规模”的关键。通过比较26个大样本集合在相同样本量下分别从piControl和historical数据估算的Δ,发现对于六个诊断量中的四个(N3 PR均值、方差,N3 SST方差、偏度),两者高度一致(相关系数>0.9,回归斜率接近1)。对于N3 SST均值和N3 PR偏度,一致性稍弱,但总体趋势仍然显著正相关。这表明,尽管historical试验包含了时变的外强迫,但就ENSO相关统计量的内在变率特征而言,piControl和historical模拟是相似的。因此,在历史模拟尚未进行或成员数量有限时,可以利用已有的、通常更长的piControl模拟来可靠地估计该模型在historical试验中统计量的不确定性,从而提前规划所需的集合规模。
最后,他们进行了应用案例展示。利用方程10和所有59个CMIP6模型的piControl数据,研究者演示了如何为不同的应用目标估算所需集合规模(RES)。设定了三种目标:1)达到某个绝对或相对不确定性阈值(例如,N3 SST均值不确定性小于0.05°C,或N3降水方差不确定性小于其均值的20%);2)能够以95%的置信度判断模型模拟值相对于观测值的偏差符号(即确定模型是高估还是低估);3)能够对CMIP6不同模型进行稳健排序(要求各模型集合均值的置信区间重叠很小)。计算结果显示,对于目标1,平均而言需要不到30个成员,但具体到不同统计量和模型差异很大,例如对N3降水方差,个别模型需要超过60个成员才能达到20%的相对不确定性。对于目标2,通常需要不到20个成员即可判断偏差方向。对于目标3,要实现模型间的清晰排序非常困难,特别是对于方差和偏度统计量,绝大多数模型即使有60个成员也无法满足设定的严格标准,这表明基于当前CMIP6集合对这些高阶统计量进行模型排名具有很大的不确定性。
研究的结论明确指出:1)集合均值的不确定性(Δ)随集合规模的平方根减小,这一理论关系在气候模拟数据中得到完美验证,为优化集合设计提供了明确依据。2)增加计算时段长度通常也能降低不确定性,但其效果不如增加集合规模那样稳定和可预测,尤其对于非正态分布的量或存在多年代际调制的系统。3)piControl模拟能够为historical模拟中ENSO统计量的不确定性提供可靠的估计,这使得模型开发者可以在进行成本高昂的历史模拟集合之前,利用已有的控制试验来预估所需资源。4)研究所推导的简单方程(9和10)为气候学界提供了一个强大的先验分析工具,能够以极低的计算成本替代复杂的随机重采样方法,用于评估现有模拟的可靠性或设计未来的模拟实验。
本研究的科学价值和应用价值显著。在科学层面,它首次系统性地将经典统计抽样理论应用于CMIP6大样本集合,定量揭示了ENSO关键统计量不确定性的核心控制因子(集合规模和时段长度),并验证了piControl模拟在预估historical模拟不确定性方面的实用性,深化了我们对气候模型内在变率及其影响的理解。在应用层面,该研究为气候建模中心和研究人员提供了一个实用的“决策支持”框架。模型开发者可以在调优阶段,利用长期piControl运行来评估新模型版本的内在变率特征,从而在启动正式的历史或情景模拟前,就对所需集合规模做出合理估算,更高效地分配宝贵的计算资源。同时,该框架也可广泛应用于其他气候变量和区域的分析,以及古气候模拟、中等复杂程度模型等需要评估采样充分性的各类研究中。
本研究的亮点在于:1)方法论的创新与简化:提出并验证了一套基于理论的、先验的估计方法,相较于传统的后验随机采样法,更加简洁、通用且计算成本极低。2)系统性的验证:利用CMIP6中众多大样本集合,对理论关系进行了全面、跨模型、跨统计量的严格检验,增强了结论的普适性和可信度。3)明确的实用指南:不仅验证了理论,还通过具体案例展示了如何应用公式解决实际科研中的资源规划问题(如需要多少成员来判断模型偏差或进行模型排序),具有很高的可操作性和指导意义。4)对关键科学问题的清晰解答:明确回答了“集合规模与不确定性有何定量关系?”以及“能否用控制试验指导历史试验设计?”这两个气候模拟领域的重要实践问题。
此外,研究还指出了一些有价值的细节,例如MPI-ESM1-2-LR模型中极端降水事件对不确定性估计的影响,提示我们在应用理论时需要注意极端值的存在;以及多模型集合均值的不确定性主要受模型间差异支配,与单模型内在变率无关,这对解读多模型比较结果具有重要启示。总体而言,这项研究为气候模拟的不确定性量化与实验设计建立了坚实的理论基础和实用工具。