分享自:

语言模型引导的哺乳动物代谢物预测与发现

期刊:NatureDOI:10.1038/s41586-025-09969-x

学术研究报告:语言模型引导的哺乳动物代谢物预测与发现

本研究由Hantao Qiang、Fei Wang等25位作者共同完成,主要研究机构包括普林斯顿大学刘易斯-西格勒综合基因组学研究所、阿尔伯塔大学计算机科学系、阿尔伯塔大学和英属哥伦比亚大学等。该研究成果以《Language model-guided anticipation and discovery of mammalian metabolites》为题,于2025年11月26日在线发表在《Nature》期刊上。

一、 学术背景

本研究属于代谢组学(Metabolomics)与人工智能交叉领域。尽管质谱技术已能常规检测到生物样本中成千上万种小分子信号,但其中绝大部分(被称为代谢组的“暗物质”)无法被鉴定出具体的化学结构,这严重限制了对生命过程分子层面的全面理解。传统的代谢物鉴定严重依赖已知标准品数据库的比对,对于全新的、未在数据库中的代谢物,结构解析极具挑战性。

近年来,基于深度神经网络的语言模型在解析生物大分子(如蛋白质)序列方面取得了革命性进展,能够学习进化规律并预测新序列。受此启发,研究团队提出:能否将小分子的化学结构视为一种“语言”,通过训练化学语言模型来学习已知代谢物的结构特征,从而预测和发现未知的哺乳动物代谢物?这便是本研究的核心出发点。因此,本研究的目标是开发一个名为DeepMet的化学语言模型,通过学习已知代谢物的结构来预测可能存在的未知代谢物结构,并整合质谱数据,最终实现新代谢物的实验性发现,以系统性探索和绘制更完整的哺乳动物代谢图谱。

二、 详细研究流程

本研究流程复杂且系统,可分为以下几个关键步骤:

1. 模型开发与训练: * 研究对象与数据准备: 研究团队从人类代谢组数据库(Human Metabolome Database, HMDB)4.0版本中,筛选出2,046个已实验验证存在于人体组织或体液中的“小分子”(非脂质)代谢物作为训练集。这些代谢物的化学结构被转换为简化的分子线性输入系统(Simplified Molecular-Input Line-Entry System, SMILES)字符串,这是一种用文本序列表示化学结构的方法。 * 模型构建与训练策略: 研究采用长短期记忆(Long Short-Term Memory, LSTM)神经网络架构构建化学语言模型。为了解决代谢物数据量相对较小的问题,他们采用了两阶段训练策略:首先在包含大量类药分子的ChEMBL数据库上进行预训练,让模型掌握SMILES的“语法”规则;然后在上述代谢物数据集上进行微调,使模型专注于学习代谢物特有的结构特征和“词汇”。模型以自回归方式学习,即根据已生成的SMILES字符序列预测下一个字符。

2. 模型验证与代谢物“似然性”评估: * 生成代谢物样结构: 训练好的DeepMet模型被用来生成了大量SMILES字符串(总计10亿个),经过去重后得到独特的化学结构。 * 评估生成分子的“代谢物特性”: 研究团队通过多种方式验证DeepMet是否真正学会了代谢物的结构逻辑:① 化学空间可视化:使用UMAP降维算法显示,模型生成的分子与已知代谢物在化学空间上高度重叠。② 分类器测试:训练随机森林分类器试图区分生成的分子和已知代谢物,结果分类器表现仅略优于随机猜测,表明两者在结构上难以区分。③ 与酶促反应规则对比:将模型生成的分子与基于规则的工具Biotransformer预测的已知代谢物的一步酶促转化产物对比,发现DeepMet能重现其中77.5%的转化,表明其隐含地学习了生物合成逻辑。④ 化学相似性比较:模型生成的分子与已知代谢物的结构相似度(Tanimoto系数)显著高于从PubChem中随机抽取的具有相同分子式的分子。

3. 基于采样频率的代谢物预测与优先排序: * 核心创新方法: 由于同一化学结构可能有多种SMILES表示,且模型对不同表示的“偏好”不同,研究团队没有直接计算单个SMILES的可能性,而是统计每个唯一化学结构在大量采样中出现的频率。他们假设,被模型更频繁生成的化学结构,代表其被模型认为是已知代谢物空间更“合理”的延伸。 * 验证预测能力:回顾性验证: 在训练时故意隐藏部分已知代谢物。结果发现,这些被隐藏的代谢物在模型生成的分子中普遍具有较高的采样频率,仅凭频率就能以极高的准确度(AUC = 0.98)将它们从其他生成分子中区分出来。② 前瞻性验证: 使用训练集之后发布的HMDB 5.0版本中新增的313个实验检测到的代谢物作为测试集。DeepMet成功生成了其中252个(81%),并且这些新代谢物的采样频率也远高于背景(AUC = 0.97)。尤为重要的是,在采样频率最高的前1万个分子中,包含了105个HMDB 5.0的新代谢物,富集度高达随机预期的1500倍,证明了频率排序对发现新代谢物具有极强的指导价值。③ 填补数据库空白: 模型高频生成的分子中,包含了大量在HMDB中被标注为“预期”或“预测”但实际可能是已知代谢物的结构,以及许多完全不在HMDB中的结构,后者被认为是模型预测的最可能存在的未知代谢物。

4. 整合质谱数据引导代谢物鉴定: * 仅凭精确质量(Accurate Mass)的候选结构排序: 对于给定精确质量的未知峰,研究从DeepMet生成的海量结构中过滤出分子量匹配的候选结构,并按其采样频率排序。在模拟实验中,对于被隐藏的已知代谢物,仅凭质量信息,DeepMet将正确结构排在第一位的成功率高达29%,远高于简单的基线方法(如AddCarbon)。当正确结构不在第一位时,也常出现在前十名内,且排名靠前的错误结构在化学上也与真实代谢物高度相似。 * 整合串联质谱(MS/MS)数据: 这是将预测与实际检测数据结合的关键步骤。研究团队使用CFM-ID工具,为DeepMet生成的大量候选结构预测了其MS/MS谱图,构建了一个庞大的“虚拟”谱图库。当获得一个未知峰的实验MS/MS谱图时,即可在此库中进行搜索和匹配。他们将匹配分数(如余弦相似度)与DeepMet的采样频率结合,得到一个综合评分用于排序。在模拟实验中,这种结合策略将正确结构的鉴定率(Top-1准确率)提升至52%(正离子模式)。 * 元学习(Meta-learning)模型整合多源信息: 为了进一步提高鉴定准确性,他们训练了一个随机森林分类器,整合了DeepMet置信度、MS/MS匹配度、MS1级同位素模式匹配度以及预测保留时间与实验保留时间的差异等多个维度的信息。这个元学习模型将已知代谢物的鉴定准确率进一步提升至70%,并且其输出的概率值与鉴定正确的可能性高度相关,为实验验证提供了可靠的优先顺序。

5. 实验验证与新代谢物发现: * 在已发表数据集中重新注释: 研究团队将DeepMet生成的候选结构库与CFM-ID预测的谱图库结合,对公共数据库(如Metabolights, Metabolomics Workbench)中存储的大量人类血液代谢组学数据的未鉴定MS/MS谱图进行系统性搜索。结果显著增加了可被暂时注释的谱图数量,并从中发现了一些可能的新代谢物线索,例如在脓毒症患者血液中注释并验证了N1-甲基-咪唑乳酸(一种文献报道过但未收录于HMDB的代谢物),其丰度能区分患者与健康对照。 * 在小鼠组织新数据集中的靶向发现: 这是最核心的验证环节。团队采集了23种小鼠组织和体液的LC-MS/MS数据,检测到4814个推测的代谢物峰,其中仅5.2%能用内部标准品库鉴定。他们利用DeepMet结合MS/MS和元学习模型,为大量未鉴定峰提供了候选结构。 * 合成标准品与验证: 根据模型预测的优先级,研究团队购买或合成了80个排名靠前的候选代谢物标准品。通过比对标准品与小鼠组织样本在相同分析条件下的保留时间和MS/MS谱图,成功确认了16个此前未被认识的哺乳动物代谢物的存在。这些代谢物结构多样,包括氨基酸偶联物(如3-(甲硫基)丙烯酰-甘氨酸)、核苷衍生物(如甲基硫代肌苷)、磺酸类代谢物(如N-氨基甲酰-牛磺酸)、碳水化合物衍生物(如2-磺酸甘油酯)以及非蛋白质源性二肽(如S-磺基半胱氨酰甘氨酸)等。 * 代谢物来源探究: 通过小鼠饮食干预(标准饲料 vs 纯化饲料)、抗生素处理(扰动肠道微生物组)以及稳定同位素(13C标记的葡萄糖、甲硫氨酸等)示踪实验,研究团队初步探索了部分新发现代谢物的来源。例如,3-(甲硫基)丙烯酰-甘氨酸在抗生素处理后减少并能掺入13C-甲硫氨酸,提示其可能由肠道微生物合成;而4,5,6-三氨基嘧啶则完全来自饮食。

三、 主要研究结果

  1. 成功开发了DeepMet模型: 该模型能够生成高度类似已知代谢物的化学结构,并通过采样频率有效地区分已知代谢物与随机生成的分子,表明其确实学习了代谢物的结构逻辑。
  2. 证明了预测的前瞻性能力: DeepMet能够高比例地“重新发现”未来(HMDB 5.0)才被收录的代谢物,并能识别出数据库中错误标注或缺失的已知代谢物,验证了其预测未知代谢物的潜力。
  3. 建立了多模态整合的鉴定流程: 研究成功将DeepMet的结构生成与优先排序能力,与基于精确质量和MS/MS谱图的传统鉴定方法相结合。仅凭精确质量,模型能有效缩小候选范围;结合MS/MS谱图匹配,能大幅提升正确鉴定的排名;进一步整合保留时间、同位素模式等多维信息的元学习模型,则提供了高置信度的鉴定优先级列表。
  4. 实验发现了数十个新哺乳动物代谢物: 通过在小鼠多组织代谢组数据中应用上述流程并进行标准品验证,研究团队确凿地发现了16个全新的代谢物,并初步揭示了其中部分代谢物的可能生物来源(宿主自身合成、微生物合成或饮食来源)。此外,在重新分析公共数据集和小鼠实验中,还确认了另外20个是已知但未被HMDB收录的代谢物,总计通过本研究揭示了36个代谢物。
  5. 揭示了新代谢物的生物学特征: 新发现的代谢物在组织分布上表现出比已知代谢物更高的组织特异性,这或许解释了它们之前为何难以被普遍发现。

四、 研究结论与意义

本研究得出结论:基于化学语言模型的方法能够有效预测哺乳动物代谢组中尚未被发现的代谢物结构。DeepMet通过从已知代谢物结构中学习隐含的“生化语言”和生物合成逻辑,能够生成合理的、代谢物样的候选结构库。通过将其与质谱数据(精确质量、MS/MS谱图)及保留时间等信息智能整合,可以系统性地指导并加速新代谢物的实验发现过程。

本研究的科学价值在于: * 方法论创新: 首次将化学语言模型系统地应用于代谢物的“ anticipation”(预测存在)与“discovery”(实验发现),为探索代谢组“暗物质”提供了一种全新的、数据驱动的强大工具。 * 拓展代谢图谱: 实验验证发现了多个结构多样的新代谢物,直接扩展了我们对哺乳动物代谢组的认知,并为后续研究其生物学功能奠定了基础。 * 提供通用框架: 研究展示了一个从计算预测到实验验证的完整闭环工作流程,该框架可应用于其他生物体系或更大的化学空间。

五、 研究亮点

  1. 核心创新性: 将用于蛋白质序列预测的“语言模型”范式成功迁移至小分子代谢物领域,实现了从“描述已知”到“预测未知”的跨越。
  2. 巧妙的优先排序策略: 提出并验证了使用“采样频率”而非单个SMILES的似然度来评估模型对化学结构“合理性”的置信度,这是将生成模型有效应用于离散化学空间排序的关键。
  3. 多层次数据整合: 并非简单替换现有流程,而是将DeepMet的生成与排序能力作为增强层,有机地整合到基于质谱的代谢物鉴定标准流程中,形成了“生成-过滤-匹配-验证”的强大组合。
  4. 扎实的实验验证: 不仅进行了大量的回顾性和模拟验证,更通过合成标准品,在严格控制的实验条件下(相同LC-MS/MS平台)确证了多个新代谢物的存在,使计算预测得到了坚实的实验支撑。
  5. 解决实际难题: 直接针对代谢组学领域长期存在的“鉴定率低”的核心瓶颈,提供了一种有望系统性照亮“代谢暗物质”的解决方案。

六、 其他有价值内容

研究也客观讨论了DeepMet的局限性:1) 模型训练基于已知人类代谢物,因此其探索的化学空间受此限制,可能无法预测来自全新生物合成途径的代谢物;2) 质谱本身无法区分某些异构体(如立体异构体、部分位置异构体),因此即使有标准品验证,某些鉴定结果仍可能存在歧义;3) 当前的发现过程仍需化学家参与,特别是涉及合成时;4) 代谢组数据中包含大量加合物、碎片等假阳性峰,需借助其他工具(如本研究使用的NetID)进行过滤。未来,将模型扩展到更广泛的生物界代谢物,并整合更多维度的分析信息,有望进一步释放其潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com