分享自:

公共代谢组学数据的跨存储库再分析及其在大数据科学中的应用

期刊:Nature CommunicationsDOI:10.1038/s41467-025-60067-y

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


跨代谢组学数据仓库的通用分析框架:Pan-REDU生态系统构建与应用

作者及发表信息
本研究由美国加州大学圣地亚哥分校、加州大学河滨分校、欧洲分子生物学实验室(EMBL-EBI)等15家机构的联合团队完成,通讯作者为Mingxun Wang。研究成果发表于*Nature Communications*(2025年),标题为《Enabling pan-repository reanalysis for big data science of public metabolomics data》,DOI: 10.1038/s41467-025-60067-y。


学术背景
研究领域:本研究属于代谢组学大数据科学领域,聚焦于公共代谢组学数据的跨仓库整合与再分析。
研究动机:尽管公共代谢组学数据(如MetaboLights、Metabolomics Workbench、GNPS/MassIVE等)增长迅速,但不同仓库的元数据标准、文件格式和访问方式的异构性阻碍了数据的跨平台利用。例如,MetaboLights采用ISA模型,GNPS依赖REDU框架,而Metabolomics Workbench使用mwtab格式,导致数据检索和联合分析困难。
研究目标:开发Pan-REDU生态系统,通过统一标识符(MS Run Identifiers, MRI)和标准化元数据,实现跨仓库数据的无缝整合与再分析,推动代谢组学从单研究分析向大数据科学的转变。


研究流程与方法
1. 数据索引与标准化
- 对象与规模:整合三大仓库(MetaboLights、GNPS/MassIVE、Metabolomics Workbench)的644,008个原始质谱文件(15倍于此前REDU的38,305个文件),覆盖人类血浆、微生物、植物等多样本类型。
- 关键技术
- MRI(MS Run Identifiers):基于通用谱图标识符(Universal Spectrum Identifier, USI)开发,为每个文件分配唯一虚拟路径,支持跨仓库定位。
- 元数据协调:将异构元数据(如ISA模型、mwtab格式)转换为REDU框架的受控词汇表,通过Python自动化流程实现术语匹配(如“NCBITaxonomy”映射为“organism”)。
- 文件格式统一:开发工具将.raw、.wiff等专有格式转换为开放格式mzML。

2. 计算基础设施构建
- Pan-REDU搜索引擎:提供两种交互入口:
- Dataset Explorer:按数据集ID检索文件及元数据。
- Dashboard:支持跨仓库元数据筛选(如“Homo sapiens+urine”)。
- 集成分析工具链
- MASST(Mass Spectrometry Search Tool):支持跨仓库MS/MS谱图搜索,用于发现新型胆汁酸(bile acids)和脂类。
- PublicDataDownloader:Python命令行工具,实现MRI批量下载与本地流程集成。

3. 验证与应用案例
- 案例1:胆汁酸组织分布分析
通过Pan-REDU整合数据后,匹配到的胆汁酸数量平均增加246%,新增6种组织/体液的分布数据(图2e)。
- 案例2:炎症性肠病(IBD)数据再分析
用户可筛选IBD相关数据集,通过GNPS分子网络进行本地定量分析。


主要结果
1. 数据覆盖扩展:Pan-REDU将兼容元数据的原始文件从38,305增至644,008,占三大仓库数据的39%(MetaboLights)、42%(Metabolomics Workbench)、19%(GNPS)。
2. 技术突破
- MRI解决了跨仓库文件定位难题,支持直接下载或转换为mzML格式。
- 元数据协调成功率达95%(MetaboLights)、67%(Metabolomics Workbench)、12%(GNPS),差异源于社区提交规范不一。
3. 生物学发现
- 通过跨仓库MS/MS搜索,新增数千种胆汁酸和N-酰基脂类(N-acyl lipids)的结构注释。
- 微生物-代谢物关联项目(如MicrobeMASST、FoodMASST)得以扩展。


结论与价值
1. 科学价值:Pan-REDU是首个实现代谢组学数据跨仓库FAIR(可发现、可访问、可互操作、可重用)原则的生态系统,为大数据驱动的代谢物发现奠定基础。
2. 应用价值
- 研究者无需编程即可检索、下载和再分析跨仓库数据。
- 促进未知代谢物的注释(如微生物衍生分子)及疾病标志物挖掘。
3. 社区影响:通过降低数据共享门槛,推动代谢组学领域从“数据沉积”向“数据重用”的文化转变。


研究亮点
1. 方法创新:MRI和元数据协调工具解决了长期存在的异构性问题。
2. 规模突破:首次整合60万+质谱文件,覆盖临床、环境、微生物等多领域数据。
3. 案例驱动:以胆汁酸和IBD为例,验证了生态系统在真实科研场景中的实用性。

其他价值
- 开源工具链(GitHub公开)支持社区扩展,未来可兼容新兴代谢组学仓库。
- 通过Google Sheet提供元数据验证模板,提升用户参与度。


此研究标志着代谢组学正式进入“大数据科学”时代,其框架亦可为其他组学数据的整合提供参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com