相同数据,不同分析:生态学和进化生物学中分析决策对效应量的影响

同一数据,不同分析:生态与进化生物学中分析决策对效应量的影响

研究背景与问题提出

在科学研究中,尤其是在生态学和进化生物学领域,研究结果的可重复性和可靠性至关重要。然而,即使使用相同的数据集和相似的研究问题,不同研究者之间的统计分析决策差异仍可能导致显著的结果变化。这种现象不仅存在于生态学和进化生物学领域,在心理学和社会科学中也已经得到了验证。为了探讨这一问题,Gould et al. (2025) 在《BMC Biology》上发表了一篇题为“Same Data, Different Analysts: Variation in Effect Sizes Due to Analytical Decisions in Ecology and Evolutionary Biology”的研究论文。

该研究旨在评估不同分析师在处理同一数据集时,由于分析决策的不同而产生的效应量和模型预测值的变化情况。通过比较多个分析师对同一数据集的分析结果,研究人员希望揭示这些变化的原因,并探讨如何提高生态学和进化生物学研究的可靠性和一致性。

研究来源与作者信息

这篇论文由 Elliot Gould、Hannah S. Fraser、Timothy H. Parker 等多位来自全球不同研究机构的科学家共同完成。主要作者包括 Whitman College 的 Timothy H. Parker 和 Fiona Fidler,以及 Monash University 的 Peter A. Vesk 等。论文于 2025 年发表在《BMC Biology》期刊上。

研究流程与方法

研究对象与数据集

研究人员选择了两个未公开的数据集进行分析:

  1. 蓝 Tits 数据集:该数据集来源于英国 Wytham Wood 地区的野生蓝 Tits(Cyanistes caeruleus)繁殖行为研究,涉及 332 个巢穴在 2001-2003 年间的繁殖情况。研究目的是探讨雏鸟生长与其兄弟姐妹数量之间的关系。

  2. 桉树数据集:该数据集来源于澳大利亚维多利亚州 Goulburn Broken Catchment 地区的植被恢复项目,涉及 351 个样方在 2006-2007 年间的调查数据。研究目的是探讨草地覆盖度对桉树幼苗招募的影响。

分析流程

招募分析师

研究人员通过多种渠道(如学术会议、社交媒体、邮件列表等)招募了 174 个分析师团队,共计 246 名分析师。每个团队可以选择分析上述两个数据集中的一个,并回答预设的研究问题。为了确保分析质量,研究人员还招募了志愿者对其他分析师的分析方法进行同行评审。

数据处理与分析

每个分析师团队根据自己的方法对选定的数据集进行了独立分析,并提交了详细的分析报告。为了确保结果的可比性,研究人员要求分析师提供标准化效应量(zr)和基于三个独立变量值的预测值(yi)。具体步骤如下:

  1. 计算标准化效应量 zr:对于线性或广义线性模型,使用 t 值和自由度(df)转换为相关系数 r,再转换为 Fisher’s zr。
  2. 生成预测值 yi:为每个主要独立变量的第 25 百分位数、中位数和第 75 百分位数生成点估计预测值。

结果分析

研究人员使用随机效应元分析技术对所有提交的效应量和预测值进行了综合分析。主要分析内容包括:

  1. 描述统计:计算每个模型中固定效应、交互项、随机效应的数量及样本量的均值、标准差和范围。
  2. 异质性评估:使用 τ² 和 I² 指标量化效应量之间的绝对和相对异质性。
  3. 偏差解释:评估分析方法的同行评分、预测变量的选择独特性以及是否包含随机效应等因素对效应量偏差的影响。

研究结果

效应量分布

对于蓝 Tits 数据集,尽管大多数(118/131)可用效应量显示巢穴中兄弟姐妹数量增加会导致雏鸟生长减缓,但效应强度和方向存在显著差异。zr 范围从 -1.55 到 0.38,且约有 93 个效应量的置信区间不包含 0。对于桉树数据集,效应量的分布更加分散,zr 范围从 -4.47 到 0.39,且大部分效应量接近零,表明草覆盖度与桉树幼苗成功之间没有明显关系。

预测值分布

蓝 Tits 数据集的预测值经过 z-score 标准化后,范围远超过一个标准差。例如,在 y25 情景下,预测值范围为 -1.84 到 0.42;而在 y75 情景下,预测值范围为 -0.03 到 1.59。桉树数据集的预测值则直接以原始计数表示,范围分别为 0.04 到 26.99、0.04 到 44.34 和 0.03 到 61.34。

异质性量化

通过 τ² 和 I² 指标的计算,研究人员发现效应量之间的异质性非常显著。蓝 Tits 数据集的 τ² 为 0.08,桉树数据集的 τ² 为 0.27,均高于以往元分析研究中的中位数(0.105)。这表明分析决策对效应量的影响可能非常大。

研究结论

该研究表明,不同的分析决策确实会导致显著的效应量差异。即使使用相同的数据集,不同分析师的分析结果也可能存在较大差异。因此,研究人员认为,未来的研究应该更加关注分析方法的选择,以提高研究结果的可靠性和一致性。

此外,该研究还强调了透明度和开放性的必要性。通过共享数据和分析代码,可以促进更多研究者的参与,从而减少分析决策带来的不确定性。同时,研究人员认为,未来的研究还可以进一步探索如何优化分析流程,以减少异质性并提高结果的可重复性。

研究亮点

  1. 首次大规模探索:这是首次在生态学和进化生物学领域进行的大规模“多分析师”研究,揭示了分析决策对效应量的重要影响。
  2. 广泛的参与者:研究吸引了全球众多科学家的参与,确保了分析方法的多样性和代表性。
  3. 创新的方法论:研究采用了多种新颖的方法,如元分析、预测值生成等,以确保结果的准确性和可靠性。
  4. 重要的启示:研究结果为未来的研究提供了重要启示,强调了透明度和开放性的重要性,有助于提高研究结果的可靠性和一致性。

这项研究不仅揭示了分析决策对效应量的影响,还为未来的研究提供了宝贵的经验和指导,具有重要的科学价值和应用前景。