关于《Development of StatMS platform coupled with MS metabolomics identifies altitude-responsive metabolites in Coreopsis tinctoria Nutt.》的学术研究报告
本研究由中国多所研究机构的科研人员合作完成。主要作者包括来自喀什大学的Yinyu Chen和Ganghui Chu,来自中国农业科学院农业基因组研究所深圳分所的Yu Song、Zhengyan Li、Jing Tian和Hongchao Ji,以及来自湖南农业大学的Hongji Zeng。该研究成果发表于2025年的*Chinese Journal of Analytical Chemistry*期刊(第53卷第9期,文章编号100569)。
一、 学术背景
本研究属于分析化学与植物代谢组学的交叉领域。其核心科学问题是探究环境因素(特别是海拔)如何影响药用植物的代谢谱,进而改变其药用价值和品质。研究对象“昆仑雪菊”(Coreopsis tinctoria Nutt.)是新疆地区一种重要的药用植物,传统上用于清热、解毒、活血等,现代药理学研究证实其具有降血糖、抗癌、抗氧化和抗炎等多种生物活性。这些活性与其富含的多种生物活性化合物,尤其是黄酮类物质密切相关。然而,植物的化学成分和药理作用受生长环境(如海拔、气候)影响显著,这直接关系到其药效的一致性和经济价值。因此,系统阐明海拔对雪菊代谢产物的影响,对于其质量控制、产地鉴别和药用资源开发具有重要意义。
本研究旨在达成两个主要目标:其一,运用整合的代谢组学技术,揭示不同海拔(从约1231米到约3200米)生长的昆仑雪菊的代谢差异,并鉴定出对海拔响应显著的特征性代谢物(altitude-responsive metabolites);其二,开发一个名为StatMS的、基于Python的软件平台,以简化和标准化质谱代谢组学数据的分析流程,包括数据预处理、统计分析和交互式可视化,从而为相关研究提供便捷的工具。
二、 详细研究流程
本研究包含一个紧密结合的实验分析流程和一个配套的数据分析平台开发流程,具体步骤如下:
样品采集与制备:
- 研究对象与样本量:研究从中国新疆四个不同海拔地区采集了昆仑雪菊的头状花序样品。四个地点及海拔分别为:塔什库尔干塔吉克自治县(~3200米,标记为TX组)、莎车县(~1231米,SC组)、博什克兰木乡(~1298米,BX组)和喀什地区(~1289米,KS组)。每个地点采集3个生物学重复,共计12个样品。样品经干燥、研磨成粉末后备用。
- 样品处理:对于液相色谱-质谱(LC-MS)分析,精确称取50毫克粉末,使用预冷的70%甲醇水溶液(含内标)进行提取。经过涡旋、离心后,取上清液过膜,备用于超高效液相色谱-串联质谱(UPLC-ESI-MS/MS)分析。对于气相色谱-质谱(GC-MS)分析,取500毫克粉末,采用顶空固相微萃取(HS-SPME)技术富集挥发性有机物(VOCs)。
代谢组学数据采集:
- LC-MS分析:使用UPLC-ESI-MS/MS系统进行分析。色谱柱为Agilent SB-C18,采用水(含0.1%甲酸)和乙腈(含0.1%甲酸)作为流动相进行梯度洗脱。质谱采用电喷雾离子源(ESI),在正负离子模式下采集数据。化合物的鉴定通过匹配实验室自建数据库(MWDB)的MS/MS谱图完成(匹配得分≥0.7)。定量分析采用多反应监测(MRM)模式,以提高选择性和定量准确性。最终通过软件(Multiquant)积分所有色谱峰的峰面积。
- GC-MS分析:使用GC-MS系统,配备DB-5MS毛细管柱。通过HS-SPME进样,程序升温分离。质谱采用电子轰击电离(EI)源,选择离子监测(SIM)模式进行定性和定量分析。鉴定依据保留时间和特征离子与数据库及标准品比对。
数据分析平台(StatMS)的开发与应用:
- 开发动机与架构:为高效处理本实验产生的大量复杂代谢组学数据,并提供一个通用工具,研究团队自主开发了StatMS平台。该平台基于Python构建,前端使用PyQt5,采用模型-视图-控制器(MVC)架构,并利用多线程技术保证图形用户界面(GUI)在计算密集型任务中的响应性。可视化模块基于Matplotlib和Plotly。
- 核心功能:StatMS整合了三大核心模块:
- 数据预处理:支持多种缺失值填补方法(如常数填补、K-近邻、随机森林、贝叶斯岭回归、支持向量回归)和数据标准化技术(如最小-最大缩放、Z-score标准化)。
- 统计分析:包含单变量分析(如倍数变化、t检验、方差分析、火山图、相关性分析)和多变量分析(如主成分分析PCA、偏最小二乘法PLS、因子分析、判别分析、聚类分析)。
- 交互式可视化:提供直观的图形界面,用户无需编程即可完成从数据导入、处理到分析和结果可视化的全过程。
- 工作流程:原始质谱数据经XCMS或MZmine等软件处理成代谢物丰度表格后,可导入StatMS。用户通过GUI选择预处理方法、执行统计检验(如比较TX组与其他组的差异),并即时生成可视化结果(如PCA得分图、火山图、热图),最后可导出图表和数据表格。
数据统计与生物信息学分析:
- 利用StatMS平台,对LC-MS和GC-MS鉴定出的所有代谢物数据进行系统性分析。
- 整体差异分析:首先进行主成分分析(PCA),观察不同海拔样本间的整体代谢谱差异和组内变异,评估实验稳定性(QC样本的紧密聚集)。
- 组间判别与模型验证:采用有监督的正交偏最小二乘判别分析(OPLS-DA)来最大化组间差异,清晰区分不同海拔的样本组。通过计算拟合优度(R²X, R²Y)和预测能力参数(Q²)以及进行置换检验(200次)来验证模型的可靠性和显著性,防止过拟合。
- 差异代谢物筛选:将高海拔TX组分别与SC、BX、KS组进行两两比较。结合OPLS-DA得出的变量重要性投影(VIP)值(>1)和单变量t检验的p值(<0.05)以及倍数变化(FC > 1.5或< 0.667)来筛选差异代谢物。通过火山图展示显著上调和下调的代谢物。
- 特征代谢物鉴定:聚焦于在TX组与所有其他三组比较中均呈现一致显著性差异的代谢物,将其定义为“高海拔特征代谢物”。
三、 主要研究结果
全面的代谢物鉴定:通过整合LC-MS和GC-MS平台,本研究从昆仑雪菊中总共鉴定出3141种代谢物。主要类别包括萜类、黄酮类、酚酸和脂质等(图1a)。质量控制样本的总离子流图(TIC)和MRM色谱图显示信号清晰且重复性好,证明了数据采集的高重现性(图1b)。
海拔引致的显著代谢差异:
- PCA分析显示,不同产地的样本呈现出明显的聚类趋势,同一产地的样本聚集在一起,表明其化学组成具有相似性。特别值得注意的是,高海拔的TX组样本在PCA图中形成了一个相对独立且紧密的簇,与其余三组明显分开(图1c)。这初步提示海拔是导致代谢谱差异的关键因素。
- OPLS-DA分析进一步强化了这一结论。得分图清晰展示了TX组与其他组别的分离(图2a)。模型评估参数优异(R²Y = 0.994, Q² = 0.918),且置换检验证实模型非随机产生,具有高度显著性(图2b,c)。这些结果共同证实,海拔高度显著改变了昆仑雪菊的代谢轮廓。
高海拔特征代谢物的发现:
- 通过严格的筛选(在TX vs SC, TX vs BX, TX vs KS三组比较中均满足VIP>1, p<0.05, |FC|>1.5),本研究最终确定了21种“特征代谢物”。其中,有6种化合物在TX组(高海拔)中持续显著上调(表1)。
- 这6种上调的潜在生物标志物包括:
- Petunidin-3-O-(6”-O-caffeoyl)glucoside(锦葵色素-3-O-(6”-O-咖啡酰基)葡萄糖苷)
- Patuletin-3-O-rutinoside(万寿菊素-3-O-芸香糖苷)
- 3’-O-Methyltricetin-5-O-glucoside(3’-O-甲基三粒小麦黄酮-5-O-葡萄糖苷)
- Sonchuside F(苦苣菜苷F)
- Dodecanenitrile(十二烷腈)
- Phthalic acid(邻苯二甲酸)
- 可视化结果(图3)清晰地展示了这些特征代谢物在不同组间的变化模式:火山图突显了差异代谢物(图3a-c);柱状图直观比较了特征代谢物在各组间的倍数变化(图3d-f);热图聚类显示了这21种特征代谢物在所有样本中的表达模式,TX组具有独特的聚类特征(图3g);维恩图展示了不同比较组间差异代谢物的重叠关系(图3h)。
StatMS平台的有效性验证:研究通过实际数据分析流程展示了StatMS平台的功能(图4)。用户可完成数据上传、预处理(缺失值填补、标准化)、执行t检验/ANOVA等多重统计、生成火山图/PCA图等可视化结果,并导出所有分析结果。该平台将复杂的编程分析转化为简单的GUI操作,极大地提高了代谢组学数据分析的效率和可及性。
四、 研究结论与意义
本研究得出以下核心结论:海拔对昆仑雪菊的代谢谱具有深远影响。高海拔(~3200米)环境下生长的雪菊具有独特的代谢特征,其中6种代谢物(包括黄酮类和萜类等)被鉴定为显著上调的特征代谢物。这些化合物已知或推测具有抗炎、抗氧化等生物活性,可能作为高海拔雪菊的潜在质量标志物(biomarkers),并与其增强的药用价值相关联。
本研究的价值体现在科学和应用两个层面: * 科学价值:首次系统性地采用整合LC-MS/GC-MS的代谢组学策略,结合自主研发的数据分析工具,从分子水平揭示了昆仑雪菊响应海拔胁迫的代谢适应机制,为理解环境因子塑造药用植物化学表型提供了详实案例和数据支持。 * 应用价值: 1. 资源开发与质量控制:鉴定出的海拔特征代谢物可为昆仑雪菊的地理标志认证、产地鉴别和品质分级提供科学依据,有助于提升其作为高价值药用和经济资源的产品附加值。 2. 育种与栽培优化:明确了特定海拔条件有利于某些活性成分的积累,为通过选择适宜种植区域或培育特定代谢物富集品种提供了方向。 3. 工具创新:开发的StatMS软件平台是一款用户友好、功能强大的代谢组学数据分析工具,其开源特性(代码发布于GitHub)将促进代谢组学数据的标准化分析,惠及更广泛的研究群体。
五、 研究亮点
- 多平台整合的深度代谢组学分析:结合非靶向和广靶向策略,利用LC-MS和GC-MS双平台,实现了对昆仑雪菊初级和次级代谢物的广泛覆盖与准确定量,共鉴定出超过3100种代谢物,数据全面、可靠。
- 明确的“海拔-代谢物”关联发现:通过严谨的实验设计(四个海拔梯度)和统计分析,不仅证实了海拔对代谢组的整体影响,更精准地鉴定出21种(其中6种上调)在高原环境中稳定变化的特征代谢物,发现了潜在的生物标志物。
- 方法学创新——StatMS平台的开发:本研究不仅是单纯的数据产出,还创造了一个重要的分析工具。StatMS平台将复杂的代谢组学数据分析流程软件化、图形化、集成化,降低了技术门槛,提高了研究效率和可重复性,这是本研究的一个重要附加贡献。
- 研究对象的特色与重要性:聚焦于具有重要民族药用价值和市场潜力的特色植物资源“昆仑雪菊”,其研究成果兼具基础研究意义和明确的产业应用前景。
六、 其他有价值的内容
文中提及了使用低共熔溶剂(DES)作为植物活性成分提取和分析绿色溶剂的潜力,虽然在本研究的具体实验方法中未直接应用,但为未来相关研究提供了技术背景和优化方向。此外,文章详细阐述了MRM和SIM定量模式的原理与优势,以及代谢物鉴定的标准,为代谢组学实验方法学提供了清晰的范例。参考文献部分也涵盖了从植物化学、药理学到代谢组学数据分析方法的广泛领域,为读者提供了深入探索的线索。