本文档是由Jane Elith(澳大利亚墨尔本大学植物学院)和John R. Leathwick(新西兰国家水与大气研究所)共同撰写,并于2009年在线发表于《Annual Review of Ecology, Evolution, and Systematics》期刊的一篇综述文章。文章的核心主题是对物种分布模型(Species Distribution Models, SDMs)这一跨学科工具的生态学解释与时空预测能力进行全面回顾与审视。该文并非报告单一原创性研究,而是一篇综合性、批判性的综述,旨在梳理SDM领域的发展历程、核心概念、应用多样性、面临的挑战以及未来方向,特别强调了加强生态学理论与SDM实践之间联系的重要性。
该综述首先指出,SDM作为数值工具,结合物种出现或丰度观测数据与环境变量估计值,被广泛用于获取生态与进化见解,并预测物种在景观中的分布,其应用已遍及陆地、淡水和海洋领域。文章回顾了SDM发展的历史脉络,指出其现代形式是现场生态学研究与地理信息系统及空间数据技术进步相融合的产物。早期研究多侧重于定性的物种-环境关系描述,而现代SDM则得益于广义线性模型等统计方法的发展以及遥感、气候插值等环境数据获取技术的进步,使得在景观尺度上进行定量建模和预测成为可能。然而,作者指出,当前SDM实践与生态学理论之间的联系往往较为薄弱,这阻碍了该领域的进一步发展。
文章随后系统性地阐述了物种分布模型领域的多个核心议题与主要观点:
1. 跨领域应用的共性与差异源于物种的移动性与学科传统。 不同领域(陆地、淡水、海洋)在SDM方法上存在差异,这既反映了研究对象(物种)在移动性上的根本不同,也反映了各学科“习惯用法”的影响。对于固着或活动范围小的物种,其环境相对容易表征;而对于高度活动的物种(如洄游鱼类),建模则需纳入与移动或可达性相关的描述符。例如,资源选择函数对于研究动物在“可用”与“使用”栖息地之间的选择很有用。此外,数据收集方式的历史差异也导致了不同学科的重点不同:植物样方通常被视为独立样本,而海洋拖网或陆地样线连续采样则会产生样本间非独立性问题,这促使了混合模型等处理空间自相关方法的应用。
2. 空间尺度的考量至关重要,但处理尺度差异尚无共识。 尺度(包括粒度和范围)对物种与环境分布都至关重要。合适的尺度取决于研究目标、系统和可用数据。生态学中存在层次尺度的概念,例如在陆地系统中,气候在全球尺度主导分布,而地形和岩石类型则在中小尺度上通过影响局部气候、养分和水流来影响物种。尽管这些概念由来已久,但如何在拟合SDM时处理尺度差异,目前仍缺乏共识。常见做法是通过数据选择或模型结构来施加尺度,但许多研究是在无意识的情况下混合了不同尺度的预测变量。更复杂的方法包括构建层次模型或使用方差分解来结构化解析不同尺度的贡献,但这些方法的相对优劣尚缺乏理论与实践的充分检验。
3. 环境空间与地理空间的交互作用是SDM的核心概念,空间自相关是这种交互的关键表现。 环境空间是由一组环境预测变量定义的多维空间,而地理空间是二维或三维的地理坐标。当SDM仅使用环境预测变量时,它建模的是物种在环境空间中的变化,其预测映射到地理空间后呈现的格局仅反映了环境自身的空间自相关。物种分布的地理聚集性可能源于其对空间自相关环境因素的响应,也可能源于主要在地理空间起作用的因素(如历史事件、扩散限制、生物相互作用)。强烈的模型残差空间格局通常意味着遗漏了关键环境预测变量、模型设定有误,或者地理因素影响显著。测试原始数据和模型残差的空间模式应是SDM研究的标准部分。虽然存在显式建模空间自相关的方法(如自回归方法、地统计方法),但由于实施难度较大,目前使用尚不普遍。错误地使用地理变量来修正缺失的环境变量或错误的模型设定,可能导致外推预测时表现不佳。
4. SDM的应用意图存在从“解释”向“预测”的微妙但重要的转变。 早期研究多带有强烈的生态学焦点,旨在深入理解物种分布的驱动因素。随着建模算法日益复杂、大范围环境数据更易获取,以及对用于保护和土地管理的空间图件需求增长,越来越多的研究聚焦于预测物种分布。预测主要分为两类:一是模型驱动的内插,即预测到训练数据环境范围内但未采样的地点,这在数据和模型合理的情况下通常是可靠的;二是外推或预报,即预测到新的地理区域或未来/过去的气候条件下。后者风险很高,因为它违反了物种与环境处于平衡态、相关环境梯度已被充分采样等关键假设,且可能面临新的环境组合、变化的生物相互作用、难以预测的扩散路径等挑战。作者强调,尽管存在这些问题,相关模型目前仍是进行预测或回溯的少数可行方法之一,但需要对方法和结果进行严格评估。
5. 选择功能相关的预测变量对于模型的解释力和预测力都至关重要。 一些研究倾向于使用大量候选预测变量,让模型自行筛选。但作者引述Mac Nally的观点,强调基于现有知识和理论,先验地选择对目标物种有生态学意义的变量更为重要。Austin和Smith提出了区分资源梯度、直接梯度和间接梯度的严谨方法。间接梯度(如陆地研究中的海拔、海洋研究中的深度)是更相关的近端驱动因素(如温度、光照、压力)的代理。使用更生态相关的预测变量越来越成为可能(如气候插值、遥感数据、水平衡模型等)。尽管有这些进展,许多研究似乎仍只使用易于获取的数据,未能解释所选预测变量的相关性,这可能遗漏重要的生态驱动因子。即便仅以预测为目标,使用不相关的预测变量也可能导致模型的残差呈现规律性,并且在外推时更容易出错,因为间接变量与直接驱动因素之间的相关性在时空上是变化的。
6. 建模方法的多样性与选择反映了数据类型、研究问题及学科习惯。 用于建模的方法多种多样,从早期的环境包络模型、距离度量方法,到回归类模型(GLM, GAM),再到来自机器学习和数据挖掘领域的方法(如人工神经网络、随机森林、增强回归树、最大熵模型等)。历史上,针对有意图设计的调查数据(常包含存在-缺失数据)的方法与针对汇编记录(常为仅存在数据)的方法有所不同,但现在正日益趋同。回归类方法在生态学家中广泛使用,可以扩展到处理复杂数据类型。以预测为重点的应用则促使研究者关注专门为预测开发的方法,其中许多方法在变量选择、自动检测和拟合预测变量间的交互作用方面表现出色,预测性能可能超过传统技术。然而,这些方法的复杂性和有时被视为“黑箱”的特性,可能限制了其在以生态洞察为目标的研究中的应用。尽管存在限制,预计未来几年这些技术将得到更广泛的采纳。
7. 将时间维度纳入SDM带来了新的机遇与挑战。 许多研究现在关注时间变化,主题包括近期干扰(如火灾、土地利用变化)导致的分布变化、物种形成事件的空间与环境相关性、杂交带、古分布与系统地理学,以及入侵和气候变化下的分布预测。关键区别在于,需要预测的时间段是与训练数据匹配,还是使用当前分布的模型去回溯或预报其他时间点。SDM可以将时间作为预测变量明确纳入模型(如时间变化的食物资源)。具有进化焦点的SDM则用于评估物种间和物种内的空间变异模式。那些使用模型对不同时间框架进行预测的应用通常需要在环境空间中进行外推,因此具有前文所述的外推风险。理解和评估这些预测中固有的不确定性尤其具有挑战性。
文章进一步指出了当前SDM研究中的热点、罕见领域和发展方向:
8. 缺乏坚实的生态学理论基础是SDM领域面临的一个关键批评。 作者引用Huston的观点,指出SDM社区缺乏理论根基的后果包括模型使用不当、方法生态真实性改进缓慢,以及其他相关学科(如宏观生态学、生物地理学)对其成果的采纳有限。一个例外是关于SDM与物种生态位关系的近期辩论,但这场讨论因语义、概念和技术上的困难而尚未达成共识。作者认为,更广泛地关注理论、数据和模型的联系将带来实质益处,包括物种分布的平衡程度、如何构建和测试功能相关预测变量、当前主流的加性模型是否生态真实、如何处理种间相互作用,以及如何理解和建模不同时空尺度上地理与环境驱动因素的交互作用等议题。
9. “仅存在数据”的建模方法仍在发展,对其解读和评估需更多关注。 仅存在数据(如博物馆记录、无线电遥测数据)在缺乏系统调查数据时被广泛应用。尽管其局限性众所周知,但如何最好地建模这类数据,建模者仍在探索。态度存在显著差异:一些人承认若有存在-缺失数据模型会更稳健;另一些人则认为缺失记录会引入混淆信息(如指示栖息地不合适或虽合适但未占据),并常与“潜在分布”建模概念相关联。对背景数据或伪缺失数据意义的解释也各不相同。文献中缺乏关于这些不同观点与生态和统计理论之间联系的坚实讨论。在处理样本偏差和评估仅存在模型的方法上取得进展,将带来巨大益处。
10. 考虑生物相互作用是SDM的一大难题,尤其是在外推情境下。 极少有SDM研究明确纳入描述生物相互作用的预测变量。主要原因在于,在大多数数据集中,环境效应与竞争者、互利者的效应是混杂的,难以推断其相对重要性。在用于理解或内插式预测时,仅使用非生物预测变量的后果可能并不严重,除非存在关键宿主物种且未被现有协变量预测。然而,对于外推应用(如全球变暖、物种入侵),竞争者、互利者和种内吸引的影响可能具有深远效应,尤其是在可能出现新的物种组合时。这是SDM较困难的方面之一,其解决可能需要超越现有方法能力的新方法开发。
11. 模型选择、评估与不确定性分析是确保SDM可靠应用的关键环节。 模型选择方法已从基于p值的统计技术转向更强调AIC和信息准则。模型平均技术(如来自计算机科学的集成学习方法)提供了另一种思路。在模型评估方面,以解释为目标的研究侧重模型拟合的统计检验以及与现有知识的比较;而以预测为目标的研究则侧重于使用数据重采样或独立数据集测试预测性能。当前性能总结多基于少数几种统计量(如AUC、Kappa),SDM评估将受益于从其他领域(如机器学习、天气预报)借鉴有用的技术,并更多关注如何分析误差的空间模式、如何处理不确定性以及如何在包括决策制定的应用背景下评估模型性能。不确定性源于数据缺陷和模型设定错误,但在管理应用中其重要性常被忽视。未来需更多研究来处理不确定性,包括减少不确定性、表征不确定性以及探索其对决策的影响。
最后,文章总结道,SDM领域展现了丰富的多样性,但未来的进步更可能来自理论、概念和实践的更好整合,而非方法本身的改进。作者希望鼓励跨学科边界的探索、知情且创造性地使用多种方法,以及有计划地填补重要知识空白。这将提升SDM为管理地球日益减少的生物资源提供所需信息的能力。
本文的重要意义与价值在于:它不仅是当时对SDM领域的一次全面、深入的盘点,更是一篇具有前瞻性和批判性的指导性文献。它清晰地指出了SDM在方法论繁荣背后存在的理论脱节问题,系统梳理了从数据、尺度、空间自相关、预测变量选择到模型应用意图(解释vs预测,内插vs外推)等一系列核心议题中的关键挑战与争议。该综述推动了SDM研究者对模型假设、局限性和适用条件的反思,强调了生态学机理与相关性建模结合的必要性,并为后续十余年SDM领域在不确定性量化、集成建模、过程机制融合等方面的发展指明了方向。因此,对于任何从事或关注物种分布建模、生态预测、生物地理学及保护规划的研究者和实践者而言,这篇文章都是一份历久弥新的基础性与纲领性参考文献。