物种分布模型适用性评估：数据、模型与应用需求的匹配

分享自：
物种分布模型适用性评估：数据、模型与应用需求的匹配

期刊:Global Ecology and BiogeographyDOI:10.1111/geb.12268
文献解读报告：物种分布模型的适用性评估
本文是一篇发表于期刊《Global Ecology and Biogeography》2015年第24期的综述性论文，作者团队来自墨尔本大学植物学院（Gurutzeta Guillera-Arroita, José J. Lahoz-Monfort, Jane Elith 等）和 RMIT 大学全球、城市与社会研究学院（Ascelin Gordon）。论文题为《我的物种分布模型适用于其目的吗？——让数据、模型与应用相匹配》（”Is my species distribution model fit for purpose? Matching data and models to applications”）。
论文核心议题与背景 本综述的核心议题是解决生态学、生物地理学和保护生物学中一个普遍存在但常被忽视的关键问题：物种分布模型（Species Distribution Models, SDMs）的应用与其所依据的数据类型之间的严重不匹配。SDMs 已成为预测物种分布、理解生态关系和支持保护决策的基本工具。然而，用户常常低估了数据类型、模型输出与最终用途适用性之间的紧密联系。许多研究在使用SDM时，未能审慎评估现有数据（如仅存在记录）是否能够产生满足特定应用所需的信息（如真实的物种出现概率），这可能导致错误的科学推断和低效甚至有害的管理决策。
主要观点与论述
第一，明确SDMs可估计的“量”取决于数据类型和采样过程。 文章的核心贡献之一是提出了一个清晰的框架（图1），阐明了调查数据类型如何与采样偏差和不完美检测相互作用，共同决定了相关SDM最终估计的实质内容。作者区分了三种常用的数据： 1. 存在-背景数据：仅有物种出现记录（一个非详尽样本）和背景环境信息。这是最易得但信息量最少的数据类型。基于此类数据的模型（如Maxent）估计的是物种出现的相对可能性，而非绝对概率，因为模型无法从仅有出现记录的数据中区分物种是“稀有但调查充分”还是“常见但调查不足”。 2. 存在-不存在数据：在设定的调查点记录了物种“检测到”或“未检测到”。此类数据允许估计物种出现的概率，但前提是假设检测是完美的（即“未检测到”等于“真实不存在”）。 3. 占据-检测数据：以能够显式建模检测过程的方式收集的检测/非检测数据（例如，对同一地点进行重复访问调查）。这是信息最丰富的数据类型，允许在估计物种占据概率时，明确地考虑并校正不完美检测的影响。
该框架进一步定义了模型输出可能达到的四个信息等级：1) 有偏的观测概率；2) 正确的点位适宜性排序；3) 与真实出现概率成比例的相对可能性；4) 真实的出现概率。文章明确指出，从PB数据出发，默认只能达到第1级（观测概率），只有在没有环境采样偏差且检测概率恒定的理想条件下，才能达到第3级（相对可能性）。而PA数据在检测完美时可达到第4级（真实概率），但在检测不完美且随环境变化时，可能退化至第1级。只有Det数据才能在最一般条件下可靠地估计真实出现概率。
第二，系统评估各类生态与保护应用对SDM输出的信息需求。 作者通过广泛的文献回顾（附录S1）和五个详细的模拟案例研究，系统地评估了最常见的SDM应用场景所需的最低信息等级。这是本文的另一大贡献。他们发现，尽管基于最常见观测数据（仅出现记录）的模型预测足以满足某些应用，但许多其他应用需要出现概率的估计，而这在没有可靠缺失记录的情况下是无法实现的。具体应用与需求如下： * 需要真实出现概率的应用：这些应用涉及绝对数量的估计或跨模型比较。例如： * 野生动物监测与趋势评估：估计物种的占据面积或监测其随时间的变化。模拟案例1显示，基于PB数据（相对可能性）的模型输出无法可靠追踪物种占据面积的下降趋势，因为模型无法估计“普遍性”，且不同时期的输出不可比。 * 入侵物种优先级排序：根据潜在分布面积对多个入侵物种进行优先级排序。模拟案例2表明，基于PB数据的模型输出在不同物种间不可比，因此无法用于物种间的排序。 * 最优入侵物种监测方案设计：基于发生概率、检测成本和治理成本，优化监测投入。模拟案例3揭示，若将PB模型的输出误当作概率用于决策，可能导致总成本增加而非减少。 * 物种丰富度估计：通过叠加多个物种的SDM来预测群落物种丰富度。模拟案例4证明，只有叠加真实出现概率才能得到无偏的丰富度估计；叠加相对可能性会导致任意偏差；而叠加二值化结果则信息损失严重。 * 仅需要相对可能性或正确排序的应用：这些应用关注相对值或最优选择。例如： * 空间保护规划（使用比例目标时）：当保护目标设定为“保护每个物种分布的一定比例”时，模拟案例5显示，基于相对可能性的SDM输出可以产生与基于真实概率相似的规划方案。然而，这建立在模型能提供正确排序的假设上，并且规划者将无法知晓受保护区域内的实际占据面积。
第三，强烈质疑将连续型SDM输出二值化的普遍做法。 作者指出，文献回顾显示54%的论文将连续的SDM输出转换为假定的“存在/缺失”二值图。这种做法的理由往往不明确，且通常会导致推断质量下降。他们的模拟研究一致表明： 1. 二值化不能解决PB数据的根本局限：将相对可能性转换为0/1并不能使其变得可比或可用于估计绝对数量（如占据面积、物种丰富度）。 2. 二值化会造成信息损失：当SDM能够估计真实概率时（如使用PA数据且检测完美），将其二值化是一种粗糙的信息简化，会降低估计精度（案例1、2、4、5）。 3. 二值化仅在特定决策框架下合理：只有当应用目标本身就是将生境划分为两类（如划定“关键生境”）时，二值化才是必要的。即便如此，阈值的选择必须由明确的决策目标（如“保护90%的分布区”或“用有限预算保护N个最佳点位”）来驱动，而非依赖通用的统计学阈值。
第四，为未来的研究和实践指明方向。 基于上述分析，作者提出了清晰的建议： 1. 推动数据收集的改进：未来的努力应转向收集信息更丰富的调查数据。首要步骤是确保记录“未检测到”信息，并将其整合到数据库中，以解决采样偏差问题并允许估计普遍性。在可能的情况下，应采用允许处理不完美检测的采样设计（如重复调查）。 2. 在决策框架内使用SDM：建模应在一个结构化的决策框架内进行。首先要问“我的SDM将用于什么目的？”，然后据此评估所需的信息类型（概率、相对可能性或排序），并检查现有数据或计划收集的数据能否在考虑采样偏差和检测问题后产生所需的信息。 3. 审慎对待模型输出：避免不必要的二值化。连续输出通常包含更丰富的信息。模型评估的指标也应与信息需求相匹配。
论文的意义与价值 本文是一篇具有高度指导意义和方法论反思价值的重要综述。其价值和意义体现在： 1. 整合与澄清：它将此前分散讨论的数据类型局限性、不完美检测、采样偏差以及输出二值化等问题整合到一个统一的概念框架中，极大地澄清了SDM建模中的核心混淆点。 2. 实践指导性强：通过框架图和详细的附录表格，为模型使用者和决策者提供了一个实用的“自查清单”，帮助他们评估其SDM输出是否“适用于目的”。 3. 纠正普遍误区：有力地挑战了“仅出现数据足以应付大多数应用”和“二值化是必要步骤”这两个普遍存在的误区，促进了更严谨的科研和保护实践。 4. 推动领域发展：明确指出了未来数据收集和分析方法的发展方向，强调向更严谨的、能够分离生态过程与观测过程的建模范式（如状态空间模型）迈进。
这篇论文强调了在应用物种分布模型时保持批判性思维和目的导向的重要性。它提醒研究者和管理者，建模不是目的，而是服务于特定科学或管理问题的工具。选择或收集与工具目相匹配的数据，并正确地解读和使用工具的输出，是确保研究质量和决策有效性的关键。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问