语言模型引导的哺乳动物代谢物预见与发现

分享自：
语言模型引导的哺乳动物代谢物预见与发现

化学
神经科学与心理学
期刊:natureDOI:10.1038/s41586-025-09969-x
【点击此处】阅读全文、收藏及针对性提问
一项利用语言模型预测并发现哺乳动物代谢物的开创性研究
本研究报告由多所顶尖研究机构合作完成，主要作者包括来自普林斯顿大学刘易斯-西格勒综合基因组学研究所的Hantao Qiang、Joshua D. Rabinowitz和Michael A. Skinnider，来自阿尔伯塔大学的Fei Wang和David S. Wishart等，于2025年末发表在顶级学术期刊《Nature》上。这项研究致力于解决代谢组学中长期存在的“化学暗物质”挑战，即大量通过质谱检测到的分子信号无法被识别为具体的化学结构。研究者们成功开发了一个名为DeepMet的化学语言模型，首次将人工智能语言模型技术系统地应用于预测和发现未知的哺乳动物内源性代谢物，极大地拓展了我们对生命体内小分子代谢图谱的认知。
学术背景 代谢组学旨在系统性地研究生物体内所有小分子的组成与变化，是理解生命过程、疾病机制的关键。然而，尽管质谱技术已能轻松地从任何生物样本中检测到数千个分子信号，但通常只有一小部分能被鉴定出明确的结构。大量未鉴定的质谱峰构成了代谢组的“暗物质”，这暗示着现有的代谢图谱远不完整。与此同时，语言模型已在解读DNA、RNA和蛋白质序列方面取得革命性成功，但在理解小分子代谢领域尚未产生同等影响。代谢物由有限的生物合成前体（如氨基酸、有机酸）通过一系列酶促反应生成，导致其具有共享的理化性质和亚结构特征。研究团队假设，一个化学语言模型可以从已知代谢物的结构特征中学习，从而触及代谢物样化学空间中此前未被识别的结构。本研究的目标是开发并验证这样一个模型，用以系统地预测未被表征的代谢物，并将其与实验质谱数据相结合，实现从预测到发现的闭环验证。
详细工作流程 本研究包含多个紧密衔接的步骤，构成了一个从模型构建、理论预测到实验验证的完整研究链条。
第一步：构建和训练化学语言模型DeepMet。 研究团队首先从Human Metabolome Database（HMDB）版本4.0中收集了2，046个经实验验证存在于人体组织或体液中的小分子代谢物（排除脂类），作为训练集。这些代谢物的化学结构被转换为简化的分子线性输入规范（SMILES）字符串，这是一种将化学结构表示为文本的通用格式。为了应对代谢物数据量相对有限的问题，团队采用了一种预训练-微调策略。他们首先在包含大量类药分子的ChEMBL数据库上预训练了一个长短期记忆（LSTM）循环神经网络，使其掌握SMILES的“语法”。随后，用HMDB的代谢物结构数据集对该模型进行微调，使其专注于学习代谢物特有的结构“语言”。该模型通过自回归方式学习，即根据已生成的SMILES字符序列预测下一个最可能出现的字符，从而能够生成全新的、符合化学规则和代谢物结构特征的SMILES字符串。
第二步：评估DeepMet生成分子的“代谢物相似性”。 为验证DeepMet是否真正学到了代谢物的内在逻辑，研究者进行了多角度分析。他们从训练好的模型中生成了50万个SMILES字符串，并将其与已知代谢物进行比较。首先，通过UMAP降维可视化显示，模型生成的分子在化学空间上与已知代谢物存在广泛重叠。其次，训练一个随机森林分类器试图区分生成的分子与一批已知代谢物（未参与训练），结果显示分类器的区分能力仅略优于随机猜测（AUC = 0.57），表明生成的分子在结构特征上与真实代谢物高度相似。第三，他们使用基于规则的代谢预测平台Biotransformer来模拟已知代谢物的一步酶促转化，发现DeepMet生成的分子能重现其中77.5%的转化产物，尽管模型训练时并未输入任何明确的酶反应信息。这些证据共同表明，DeepMet已成功掌握了代谢物的结构特征，并能够生成高度类似代谢物的新结构。
第三步：利用采样频率预测潜在的未知代谢物。 与蛋白质序列不同，一个化学结构可以有多种SMILES表示方式，这使得直接计算单一结构的“可能性”变得复杂。为此，研究团队创新性地采用了“采样频率”作为衡量标准。他们从10个不同数据分割训练的模型集合中累计采样了10亿个SMILES字符串，并统计每个唯一化学结构在总输出中出现的次数。分析发现，采样频率越高的分子，与已知代谢物的结构相似度越高，越可能是已知代谢物合理的酶促转化产物，其预测的生物活性谱也与已知代谢物越接近。为了测试采样频率能否指导新代谢物的发现，他们进行了模拟实验：将部分已知代谢物从训练集中剔除，结果发现这些被剔除的代谢物在模型生成的所有分子中采样频率排名非常靠前。更令人信服的是，在模型训练完成后才被添加到HMDB 5.0数据库中的313个新代谢物，有81%（252个）被DeepMet成功生成，并且这些新代谢物的采样频率也显著高于其他生成的分子（AUC = 0.97）。这表明DeepMet不仅能“回忆”已知代谢物，还能“预测”未来可能被发现的代谢物。基于此，团队从采样频率排名前1万的预测分子中，选取了80个进行后续实验验证。
第四步：实验验证预测的代谢物。 研究团队获取或合成了上述80个预测代谢物的化学标准品，并使用液相色谱-串联质谱（LC-MS/MS）进行分析。将这些标准品的质谱数据与一个大型的人体体液（尿液和血液）代谢组学数据库（使用相同分析方法采集）进行比对。通过精确匹配保留时间和串联质谱图（MS/MS），成功在人体体液中鉴定出17个由DeepMet预测的代谢物。例如，他们发现了N-氨基甲酰-脯氨酸、N-琥珀酰-色氨酸和N-乳酰-谷氨酰胺等此前在HMDB中未被记录的代谢物。这直接证明了DeepMet预测的实用性。
第五步：将DeepMet与质谱数据（精确质量和MS/MS）深度整合用于注释未知峰。 除了上述“先预测后验证”的模式，团队还开发了两种利用质谱数据直接驱动发现的方法。 A. 基于精确质量的候选结构排序： 给定一个未知质谱峰的精确质量（如±10 ppm误差），研究者从DeepMet生成的巨大结构库中筛选出所有符合该分子量的候选结构，然后根据它们的采样频率进行排序。模拟实验表明，在已知代谢物被剔除训练集的情况下，该方法的Top-1准确率（即排名第一的结构就是正确代谢物）达到29%，远高于基线方法。更重要的是，模型输出的“置信度评分”与预测正确的概率高度相关，为实验优先级的判断提供了量化依据。 B. 整合MS/MS谱图进行数据库搜索： 这是本研究的关键整合创新。研究者使用CFM-ID算法为DeepMet生成的240万个预测代谢物结构预测了它们的理论MS/MS谱图，从而构建了一个庞大的“虚拟质谱图库”。当面对一个实验测得的未知代谢物MS/MS谱图时，先根据其精确质量筛选候选结构，然后计算每个候选结构的预测谱图与实验谱图的相似度（如点积），最后将谱图相似度与DeepMet的采样频率相结合，得到一个综合评分进行排序。在模拟实验中（剔除已知代谢物），这种结合方法在正离子模式下对52%的未知峰成功给出了精确的化学结构（Top-1准确率）。该方法也被应用于一个包含2910万张MS/MS谱图的公开人类血液代谢组学数据资源中。与仅搜索已知HMDB代谢物谱图库相比，加入DeepMet预测结构库后，能匹配上化学结构的MS/MS谱图数量显著增加，表明该方法能有效注释大量此前无法识别的“暗物质”峰。研究者还从中验证了一个疑似4-溴烟酸的峰和一个在脓毒症患者中差异表达的N1-甲基-咪唑乳酸。
第六步：在小鼠组织代谢组学数据中进行大规模验证与全新发现。 为了在可控条件下进行高置信度验证，研究团队系统性地采集了23种小鼠组织和体液的代谢组LC-MS/MS数据，共检测到4，814个推定代谢物峰，其中仅5.2%能用标准品库鉴定。他们应用了上述整合DeepMet与CFM-ID的流程来注释所有未知峰，并引入了一个元学习（meta-learning）模型，该模型综合了DeepMet置信度、MS/MS相似度、同位素模式匹配度和保留时间预测误差等多个特征，进一步将模拟实验中代谢物注释的准确率提升至70%。随后，团队根据模型预测，合成了多个排名靠前的候选结构的标准品进行比对，最终成功发现了16个此前未被认识的哺乳动物代谢物。这些新代谢物结构多样，包括氨基酸偶联物（如3-（甲硫基）丙烯酰-甘氨酸）、核苷衍生物（如4,5,6-三氨基嘧啶）、磺酸类代谢物（如N-氨基甲酰-牛磺酸）以及非蛋白源性二肽等。通过饲喂不同饮食、使用抗生素处理小鼠以及灌注13C标记的前体分子等实验，研究者进一步探索了部分新发现代谢物的来源（食物、微生物组或宿主自身合成）和生物合成路径。
主要结果 1. DeepMet模型成功学习并生成代谢物样结构： 可视化、分类器测试以及与Biotransformer预测的重叠度均证实，DeepMet生成的分子在化学空间上与已知代谢物高度相似，表明模型掌握了代谢物的结构逻辑。 2. 采样频率是预测潜力的有效指标： 模拟和前瞻性测试均证明，一个结构被DeepMet生成的频率越高，它越有可能是真实存在的代谢物。这一指标能高效地将已知（但未参与训练）或新发现的代谢物从海量生成分子中优先筛选出来。 3. 预测指导的实验验证成功发现新代谢物： 通过合成标准品比对，研究在人体体液和小鼠组织中分别验证了17个和16个由DeepMet预测的新代谢物，部分代谢物（如N-乳酰-谷氨酰胺）后来被证实是已有文献报道但未被HMDB收录的“已知未知”代谢物，凸显了DeepMet填补数据库漏洞的能力。 4. 与质谱数据的整合显著提升注释能力： 无论是单独使用精确质量进行结构排序，还是结合MS/MS谱图进行数据库搜索，整合了DeepMet的流程都显著优于仅依赖已知数据库或简单生成规则（如AddCarbon）的基线方法。尤其是在大规模公共数据集中，该方法为海量未注释的MS/MS谱图提供了合理的化学结构假设。 5. 元学习模型优化最终鉴定准确性： 通过整合多种机器模型输出（结构似然、谱图匹配、同位素模式、保留时间），研究建立的元学习框架能为每个候选注释提供一个校准良好的正确概率，极大地方便了高置信度目标的选取。
结论与意义 本研究首次证明，化学语言模型可以系统地学习已知代谢组学的结构规律，并利用这种学习成果来预测和发现此前未被认识的哺乳动物代谢物。DeepMet及其配套的工作流程，代表了在绘制完整代谢图谱道路上的一次范式转变。其科学价值在于，将人工智能的预测能力与实验科学的验证能力相结合，为解析代谢组“暗物质”提供了一套强大、系统且可扩展的新工具。这项研究不仅直接扩充了已知代谢物的列表，加深了我们对代谢网络复杂性的理解，其方法学本身也具有广泛的应用前景，例如：加速生物标志物的发现、辅助天然产物的结构解析、指导合成生物学中代谢途径的设计，以及在药物发现中预测药物的新型代谢产物。
研究亮点 1. 首创性： 这是首次将化学语言模型专门用于预测哺乳动物内源性代谢物，并成功实现了从计算预测到实验验证的全链条研究。 2. 方法创新： * 采样频率策略： 巧妙地利用大规模采样下的出现频率作为衡量“代谢物可能性”的量化指标，解决了化学结构多表示形式的难题。 * 双阶段整合流程： 建立了“DeepMet生成候选结构库”与“CFM-ID预测质谱图库”相结合的全新数据库搜索范式，打破了传统方法局限于已知化合物的瓶颈。 * 元学习框架： 创新性地融合多种正交的机器预测信号（结构、谱图、保留时间），显著提升了注释的准确率和可信度。 3. 系统性验证： 研究不仅进行了模拟和前瞻性数据分析，更通过大量（近百个）化学标准品的合成与质谱比对，在人体和小鼠两个系统中扎实地验证了预测结果，发现了数十个结构多样的新代谢物，说服力强。 4. 实用性： 开发的工作流程可直接应用于重新挖掘海量已发表的公共代谢组学数据，有望释放其中蕴藏的巨大未知信息价值。
其他有价值的内容 研究还坦诚地讨论了DeepMet的局限性。例如，模型主要学习已知代谢空间，因此对全新的、与已知路径迥异的生物合成途径衍生物预测能力有限；质谱本身无法区分某些异构体（如立体异构体、部分位置异构体），这给最终的确证带来固有挑战；模型目前主要针对人类代谢物，应用于植物或细菌代谢可能需要重新训练。这些讨论为未来研究指明了改进方向，例如构建更全面的训练集、整合更多维度的分析化学信息等。这项工作为利用人工智能照亮代谢组学的“黑暗大陆”树立了一个里程碑。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问