本文是一篇发表于*metabolites*期刊2019年11月22日的综述性文章。第一作者为Ana M. Rodrigues,通讯作者为Carla António,他们均来自葡萄牙新里斯本大学安东尼奥·泽维尔化学生物技术研究所植物代谢组学实验室。合作作者Ana I. Ribeiro-Barreiro也同时隶属于里斯本大学高等农学院植物胁迫与生物多样性实验室。
本文的主题是系统阐述基于质谱(MS)分析的森林树木代谢组学研究中,实验设计与样品制备的关键步骤、挑战及最佳实践。文章指出,森林树木因其长生命周期、高遗传变异性以及组织中含有树脂、纤维素等多种干扰物,其代谢组学研究相较于草本植物或农作物面临更大的复杂性与挑战。一个精心设计的实验方案和标准化的样品制备流程,是确保数据一致性、可重复性以及后续生物学解释可靠性的基石。本文全面回顾了从生物学问题提出到数据采集的整个工作流程,并特别强调了森林树木研究中元数据标准化的重要性。
文章首先强调了在代谢组学研究中,实验设计与样品制备是影响结果生物学解读的关键环节。对于植物代谢组学,尤其是森林树木而言,其样品制备流程在代谢物提取和分析之前包含多个必须优化的步骤,包括实验室操作程序的优化,这需要针对不同的树种和组织进行具体调整。一个良好的实验设计、组织采集条件和样品制备流程,对于确保数据集之间元数据的一致性和可重复性至关重要。本文的主要目标即是讨论设立基于质谱的森林树木代谢组学实验时所面临的主要挑战,涵盖从生物学问题构建、实验设计到样品处理、代谢物提取及数据采集的所有技术层面,并强调森林树木元数据标准化的必要性。
第一部分,实验设计:从假设到实施
文章指出,任何代谢组学研究的起点都是提出一个清晰的生物学假设或问题。没有明确的问题,观测到的变化可能被误解或存在多种解释,从而无法揭示生物系统的重要信息。因此,深刻理解所研究的生物系统至关重要,这有助于选择合适的分析组织、设立恰当的对照,并最终制定出能够回答生物学问题的精确实验设计。作者特别批评了一种常见误区:将其他组学(如转录组学、蛋白质组学)实验的剩余样品直接用于代谢组学分析,这可能会因为研究目标不同、重复样本数量不足或样品储存条件不理想(影响代谢物稳定性)而严重影响整个代谢组学分析的质量。
在森林树木代谢组学中,大多数生物学问题都与树木对环境变化的适应与驯化响应相关,例如持续干旱、土壤盐渍化、极端温度等,同时也涉及鉴定具有药理、农用、环境或工业价值的活性成分。明确了生物学问题后,实验设计规划就成为工作流程中的首个关键步骤。
一个完整的实验设计应确保从所收集生物材料中得到的分析数据,能够通过可靠的统计分析来回答初始提出的问题。设计要素通常包括:植物生长与处理(如生长条件、随机化、重复、对照)、样品制备条件(如采集组织、淬灭方法、是否混合样品、代谢物提取方案)、分析平台(如GC-MS、LC-MS、靶向或非靶向策略)以及统计处理。此外,所有额外的变异来源(如基因型、样本量、组织选择、发育阶段、环境条件、批次/区组效应)都应被调查并最小化,以避免误导性结论。
实验设计还需考虑时间框架。代谢物具有高度的动态性(在时间和空间上),代谢组学研究可以反映代谢的稳态(瞬时快照)或其动态的时间进程评估。由于植物采样的破坏性,大多数植物代谢组学研究是横向的(即横断面研究),每个时间点使用不同的样本。而纵向研究在植物中相对较少,但可以通过非破坏性的顶空技术分析挥发性有机化合物来实现。
森林树木的实验尤其难以执行,主要因为其长生命周期和缺乏基因组工具,导致研究成本高、耗时长。因此,严谨的实验设计有助于控制时间和成本,并确保实验及其衍生数据的可靠性与可重复性。实验条件需明确定义,植物可以在受控环境(生长室、苗圃、温室)或田间条件下生长。从生长室到田间,环境控制水平逐渐降低,复杂性逐渐增加。因此,大多数代谢组学研究本质上是比较性的(如对照 vs. 处理),并确保植物在相同条件下生长。然而,田间植物受环境不可控变化的影响,因此在比较田间生长的个体或在受控与非受控条件生长的树木之间建立关联时,必须格外谨慎。
体外试验是田间活体研究的替代生物技术方法,它能大幅缩短实验时间,消除环境相关波动,允许在受控环境中操纵单一变量。例如,建立共培养体系来研究植物-病原体互作,或者用于杨树等树种的快速克隆繁殖。这种技术可以作为森林树木研究的初步工具,但关键在于评估这些体系是否反映了植物的真实生理状态。
为了补偿代谢组学分析中的定量和定性变异,生物学重复对于强有力的统计分析和结果的可靠生物学解释至关重要。技术重复可以补偿方案或仪器变异,但不能改善结果的统计分析。在植物代谢组学中,可接受的最小生物学重复数应为6个。更强的统计分析所需的重复数可以通过功效分析来确定。随机化对于减少实验误差和生物变异性至关重要。在受控环境中,植物应在实验过程中轮换以补偿光照或通风变化的影响。在温室或田间条件下,环境条件的变化很可能发生。在所有情况下,记录实验过程中观察到的所有变化并将其纳入元数据至关重要。一种常见的补偿策略是采用区组设计,将个体分成同质组(区组),在区组内随机分配处理。
第二部分,样品制备:从采集到分析
样品制备方案对获得的代谢组学数据具有至关重要的影响。工作流程包括生物材料的采集、代谢的立即淬灭、储存、样品均质化和代谢物提取。必须精心规划样品制备,以识别可能影响数据分析、数据再利用或结果生物学解释的实验变异和误差源。为了获得标准方案,应使用技术重复提取来验证针对所研究植物组织的样品制备方法,以确定方法的精密度和定量重复性。
采集的精确时间和过程是代谢组学实验的决定性步骤,因为它决定了待分析生物体的“代谢快照”,直接影响结果的生物学解释。采集应尽可能快速进行,以避免昼夜变化和高周转率代谢物的损失。对于森林树木,样本大多在田间采集,必须妥善储存直至实验室处理。理想情况下,生物样本应立即在液氮中冷冻。在自然生态系统中无法实现时,最佳方法是使用硅胶使样品脱水,从而停止生化反应,但挥发性化合物往往难以回收。此外,应尽可能详细地描述采集地的地理位置和土壤-气候条件数据。
采集后,样品制备的第二步是立即淬灭代谢,通常使用液氮快速冷冻(休克冷冻)。淬灭是代谢组学工作流程中的关键步骤,旨在立即停止代谢,避免样品中发生进一步变化,如代谢物降解或其浓度、化学或物理性质的改变。其他方法包括冷冻干燥或使用冰甲醇。尽管使用新鲜冷冻样品可能重复性较低,但冷冻干燥过程较慢,可能导致人工产物产生,并可能使代谢物不可逆地吸附在细胞壁和膜上。适当的样品处理方法应根据所研究的植物组织进行评估。
淬灭后通常进行样品均质化,使用研钵和研杵或球磨机进行植物细胞壁破碎和样品称重,这些步骤始终在液氮环境下进行以防止组织解冻。
第三部分,代谢物提取策略与平台选择
代谢物提取方案的选择极其重要,因为它直接影响代谢物的覆盖范围和浓度。理想的提取方案旨在:高效、高通量地从样品中分离代谢物;尽可能非选择性以确保足够的代谢物覆盖;防止代谢物损失或降解;具有良好的重复性;去除可能影响分析的干扰物;与所选分析技术兼容;必要时在分析前浓缩低丰度代谢物。
代谢组学实验通常遵循靶向和非靶向两种策略。靶向代谢组学鉴定一组明确已知的、已注释的代谢物;而非靶向方法旨在提供生物样品中所有可测量分析物(包括未知化合物)的概览。然而,由于植物代谢组中代谢物种类繁多、浓度水平不同且物理化学性质各异,使用单一提取方案提取全部代谢物是不可能的。提取方案需考虑多个方面,包括选择合适的溶剂系统、溶剂溶解度、溶剂与样品比例、提取时间和温度。溶剂的选择不仅取决于待提取代谢物的性质,还必须满足所用分析平台(如GC-MS、LC-MS)的特定要求。例外情况是使用顶空萃取(如固相微萃取)提取挥发性成分而无需溶剂。在靶向植物代谢组学中,向提取缓冲液中添加稳定同位素标记的内标是监测提取重复性、补偿离子化抑制/增强效应、方法准确度、精密度和基质效应以及用于数据标准化的重要工具。
在森林树木研究中,GC-MS(尤其是GC-TOF-MS)常用于高通量植物初级代谢物谱分析,允许在单次提取中测量复杂混合物(有机酸、糖、氨基酸等)。GC-TOF-MS相较于GC-QMS具有更高质量精度、更高占空比和更快采集速率等优势。常见的提取方法是经过优化的氯仿:甲醇:水两相溶剂系统,提取物随后用N-甲基-N-(三甲基硅烷基)三氟乙酰胺衍生化。这种两相溶剂系统的优点是将代谢物从单个样品中分馏为极性水相(甲醇:水)和亲脂性有机相(氯仿),可以分别进行分析。
此外,GC-MS也用于分析挥发性成分,如挥发性有机化合物和精油。VOCs通常通过顶空技术(如SPME)收集,而精油则通过水蒸馏、蒸汽蒸馏或干馏获得。SPME的非破坏性特性允许对VOCs排放进行时间进程评估,已广泛应用于森林树木的化学型分类、植物-病原体互作或植物-昆虫通讯研究。
LC-MS仪器在森林树木研究中用于非靶向次级代谢物谱分析和植物激素定量研究,重点关注非生物胁迫响应、生物胁迫响应以及植物生长发育过程。用于LC-MS非靶向分析的代谢物提取通常使用基于甲醇或甲醇:水的简单方案。然而,许多森林树木代謝组学研究将LC-MS次级代謝物谱分析与GC-MS初级代謝物谱分析相结合,以实现更全面的代謝组覆盖。在这种情况下,使用氯仿:甲醇:水两相溶剂系统,极性相干燥后重新溶解于甲醇:水中用于LC-MS分析,而非极性(亲脂)部分在衍生化后也可用GC-MS分析。
对于植物激素定量,LC-QQQ-MS是常用平台。文献中报道了多种针对森林树木组织的植物激素提取方案,例如使用2-丙醇:水:盐酸和 二氯甲烷的两相系统,或基于甲醇:水:甲酸的Bieleski溶剂提取方案的修改版本。在这些靶向分析中,经常包括固相萃取步骤以去除基质中的干扰成分(如色素、树脂酸、类胡萝卜素、纤维素和脂质),并提高目标植物激素的回收率。
第四部分,森林树木元数据标准化的重要性
基于质谱的高通量平台产生了极其庞大的代谢组学数据集。为了全面理解不同植物过程和响应中涉及的生化途径和调控网络,代谢组学数据集可以进一步与其他组学(如转录组学、蛋白质组学)数据整合,前提是数据以标准化和可重复的方式提供。因此,代谢组学研究的描述应包括重复实验和再利用数据所需的所有信息。
为了促进代谢组学分析所有阶段(实验设计、生物学背景、化学分析和数据处理)的标准化并确保元数据一致性,代谢组学界于2007年成立了代谢组学标准倡议。MSI旨在制定报告标准,清晰描述所研究的生物系统和代谢组学分析工作流程,以使数据能够被有效应用、共享和重用。随后出现的FAIR原则(可发现、可访问、可互操作、可重用)旨在确保数据持有者和发布者进行良好的(元)数据管理。ELIXIR(欧洲生物数据基础设施)也将植物科学、代谢组学等多个社区聚集在一起,共同应对日益增长的数据复杂性挑战。
在植物代谢组学领域内,森林树木代谢组学研究在元数据标准化方面面临额外挑战。森林树木生命周期长,实验元数据的细节(如亲本来源或田间生长条件)经常未被描述。为了重用这些研究衍生的数据,元数据描述应包括采集材料的详细信息(如地理位置、生长条件、生物生长阶段和物候参数)。这些参数可能反映了影响研究材料的表观遗传变化所介导的适应性性状。因此,由于表观遗传变化影响转录组、蛋白质组并最终影响代谢组,这些组学数据的整合在很大程度上取决于是否有详细的材料信息。
植物表型分析在过去几年取得了显著发展,但由于数据生成量的增加,数据采集标准化及其再利用仍然是一个挑战。由社区驱动的项目,如MIA PPE项目(表型实验的最小信息)、ISA框架或GNPIS数据仓库,已经着手解决植物表型实验元数据标准化的迫切需求。MIA PPE提供了一个检查清单来充分描述植物表型实验,并提供了验证、存储和传播符合MIA PPE标准数据的软件。2019年初发布的MIA PPE 1.1版本扩展至包括木本植物,并与其他表型框架兼容,这是朝着森林树木元数据标准化迈出的重要一步。通过提供符合FAIR原则的策划数据库,这些平台使数据和元数据更易于发现、整合和分析。针对森林树木研究生成的数据量,已经开发了专门的数据库或对现有数据库进行了扩展。
第五部分,结论与展望
代谢组学研究通常被视为生物系统对遗传或环境改变的最终响应。尽管大多数基于质谱的植物代谢组学研究集中在作物和非树木模型物种上,但近年来,森林树木物种的研究引起了特别关注,尤其是在森林树木研究取得重大基因组学突破之后。在这一领域,基于质谱的代谢组学为探索森林树木对环境波动的适应以及其他经济和生态相关的发育过程提供了独特的机会。
然而,如前所述,为了成功地从代谢组学分析中获得有意义的数据,拥有一个精心规划的实验设计和适当的样品制备至关重要。任何代谢组学研究都应非常详细地包括对实验设计以及其他技术参数的清晰描述。尽管面临挑战,代谢组学科学界仍在持续努力,以确保实验室间数据和元数据的可重复性,并促进包含高质量数据的策划数据库和存储库的可用性,包括专门的木本物种平台。
本文作为一篇系统性综述,其价值在于为从事或即将开展森林树木代谢组学研究的科研人员提供了一个清晰、全面的路线图和技术参考。它不仅指出了该领域特有的挑战(如长周期、干扰物多、田间采样困难),还详细梳理了应对这些挑战的最佳实践方案和现有技术选择(如GC-MS与LC-MS的互补、不同提取方案的比较、体外模型的利用)。更重要的是,文章高瞻远瞩地强调了在“大数据”时代下,元数据标准化和数据共享对于提升森林树木代谢组学研究整体水平、实现数据长期价值以及促进多组学整合的极端重要性。这篇综述对于推动森林树木代谢组学从方法探索走向标准化、规模化研究具有重要的指导意义。