利用群落多组学数据大规模预测未表征微生物蛋白质的功能

分享自：
利用群落多组学数据大规模预测未表征微生物蛋白质的功能

信息科学
遗传学
生命科学
微生物学
计算机科学
期刊:Nature BiotechnologyDOI:10.1038/s41587-025-02813-7
【点击此处】阅读全文、收藏及针对性提问
本研究报告旨在介绍一项发表于《自然·生物技术》（*Nature Biotechnology*）期刊的最新原创性研究成果。该研究于2025年8月在线发表（发表日期为2025年8月15日接收，具体在线发表日期为文章页面显示的xx xx xxxx），由Yancong Zhang、Amrisha Bhosle、Sena Bae、Kelly Eckenrode、Xueying Huang、Jingjing Tang、Danylo Lavrentovich、Lana Awad、Ji Hua、Ya Wang、Xochitl C. Morgan、Bin Li、Andy Krueger、Wendy S. Garrett、Eric A. Franzosa及Curtis Huttenhower等来自中国农业科学院深圳农业基因组研究所、哈佛大学陈曾熙公共卫生学院、哈佛大学-麻省理工学院博德研究所、哈佛大学系统与合成生物学系、武田美国研发中心等多家机构的研究人员共同完成。
学术背景与研究目的 本研究属于微生物组学与生物信息学的交叉领域。尽管高通量测序技术已为微生物群落研究带来了海量的基因序列数据，但其中大部分基因的功能仍属未知，被称为功能“暗物质”。即使在研究最为深入的人类肠道微生物组中，高达70%的蛋白质功能未被表征。这种功能注释的巨大空白严重限制了我们深入理解微生物在健康和疾病中的作用，以及它们在环境生态过程中的功能。传统的实验方法（如培养和体外表征）虽能提供金标准，但耗时耗力，无法跟上每年新增的数以百万计的微生物蛋白质家族的速度。虽然针对单一模式生物的蛋白质功能预测计算方法已有长足发展，但这些方法依赖于已知的基因组背景、蛋白质互作网络或实验表达数据，难以直接应用于主要由大量未培养、未充分表征的物种组成的复杂微生物群落。特别是，群落中存在大量与已知蛋白序列同源性很低或没有同源性的新型蛋白质家族，使得基于序列相似性的传统注释方法失效。
在此背景下，本研究旨在开发一种适用于复杂微生物群落的、大规模预测未表征基因产物功能的计算方法。该研究特别利用了微生物群落多组学数据，尤其是宏转录组学数据，因为宏转录组能够在自然群落状态下原位反映基因的功能活性。研究的主要目标是：1）开发一个能够系统整合群落多维度证据（如共表达、基因组邻近性、序列相似性等）的计算框架；2）利用该框架对人类肠道微生物组中的大量未表征蛋白质家族进行高置信度的功能预测；3）显著扩展人类肠道微生物组的功能图谱，并探索该方法在其它表征不足的微生物群落中的普适性。
详细研究流程 本研究流程严谨，包含多个关键步骤，主要基于整合人类微生物组计划第二阶段（HMP2/iHMP）的数据集展开。
第一步：数据准备与蛋白质家族分类 研究团队首先从HMP2项目中获取了1,595份肠道宏基因组样本和800份对应的宏转录组样本。这些样本来自109名参与者，包括克罗恩病、溃疡性结肠炎患者及非炎症性肠病的健康对照，并进行了长达一年的纵向采样。使用团队此前开发的工具MetaWIBELE，从宏基因组数据中预测并汇总了蛋白质家族。随后，从800份宏转录组中量化了这些蛋白质家族的表达水平，共分析了582,744个蛋白质家族，这些家族来源于至少包含500个蛋白质家族的336个物种。为了评估这些蛋白质家族的注释水平，研究人员根据其与已知数据库（如UniProtKB、UniParc）的序列同源性，将其分为多个类别：“SC”（与具有信息性生物学过程术语的UniProtKB蛋白强同源）、“SNI”（与非信息性BP术语蛋白强同源）、“SU”（与无BP术语的未表征蛋白强同源）、“UPI”（与UniParc未表征蛋白强同源）、“RH”（与UniProt蛋白远程同源）和“NH”（与UniProt蛋白无同源性）。分析发现，在HMP2的蛋白质家族中，仅有14.3%属于已较好注释的SC类别，而高达85.7%的家族（约49.9万个）功能未知，其中包括大量SU（60.5%）、RH（8.0%）和NH（1.7%）类别的蛋白。
第二步：评估宏转录组共表达的功能信息性 作为方法开发的前期验证，研究团队首先评估了宏转录组共表达模式是否蕴含功能关联信息。他们计算了物种层面内蛋白质家族表达值之间的皮尔逊相关系数，构建了共表达网络。结果发现，未表征蛋白与已表征蛋白之间普遍存在强烈的共表达关系，其相关性强度与已表征蛋白之间的相关性相当。这表明，在微生物群落中，转录水平的共表达同样能够指示功能相关性，为利用宏转录组数据进行功能预测提供了理论依据。研究还将其与单一生物体数据库STRING中的共表达网络进行比较，发现在有参考数据的物种中，STRING中有关联的蛋白对在宏转录组网络中也显示出更强的相关性，但宏转录组数据覆盖的物种和共表达关系远多于现有分离株数据。
第三步：开发FUGASSEM方法 基于以上发现，研究团队开发了名为FUGASSEM（Function predictor of Uncharacterized Gene products by Assessing high-dimensional community data in microbiomeS）的全新计算方法。FUGASSEM的核心是一个两层随机森林分类器系统，采用“关联有罪推定”策略来预测蛋白质功能。其工作流程如下： 1. 数据输入与预处理：输入包括四大类群落范围的数据：a) 来自宏转录组的物种分层共表达模式；b) 来自宏基因组组装的重叠群内的基因邻近性；c) 基于UniRef50聚类成员的序列相似性；d) 预测的蛋白质结构域-结构域相互作用。 2. 第一层：单证据分类器：对于每一个待预测的基因本体（Gene Ontology, GO）功能术语（如特定的生物学过程BP），FUGASSEM为上述四类数据中的每一类分别训练一个独立的随机森林分类器。该分类器学习如何将特定类型证据（如两个蛋白间的共表达相关系数）映射到该证据支持目标功能关联的置信度，从而为每个蛋白家族基于该证据生成一个针对该功能的初步预测分数。 3. 第二层：集成分类器：第一层的四个分类器会输出四个初步预测置信度分数。随后，一个集成的随机森林分类器（第二层）被训练来整合这四个分数，为每个蛋白家族针对该GO功能术语生成一个最终的、统一的预测置信度。这一设计允许模型根据每个具体功能术语的生物学特性，自动调整不同证据类型的权重，从而优化整体预测精度。该方法设计灵活，可适用于GO、KEGG通路、MetaCyc模块等多种功能分类体系。
第四步：系统评估FUGASSEM的性能 在将FUGASSEM应用于大规模预测之前，研究团队通过多种严格的评估来验证其准确性和可靠性。 * 与单一生物体方法对比：将FUGASSEM与目前最先进的单一生物体功能预测方法（如NetGO2.0、DeepGOPlus）以及综合性数据库STRING进行交叉验证对比。结果显示，仅使用宏转录组共表达的FUGASSEM-MTX模型，其预测性能（以AUROC衡量）已与STRING的分离株共表达数据相当。而整合了全部四种证据的FUGASSEM-Full模型，其预测准确性（AUROC平均达0.95）可与STRING的整合数据预测相媲美，甚至优于DeepGOPlus和NetGO2.0等先进方法，并且FUGASSEM能够覆盖STRING中缺乏数据的更多物种。 * 时间推移验证：为了排除因同源性注释循环（即训练和验证都基于同源性传递的注释）可能带来的性能高估，研究团队设计了类似CAFA评估的时间推移验证。他们使用UniProt在2019年初（T0）的注释进行训练，然后预测在2019年至2022年初（T1）之间新获得实验验证的注释。结果表明，FUGASSEM-MTX和FUGASSEM-Full模型均能显著富集这些新出现的实验验证注释，显示出强大的预测新功能的能力。 * 各证据类型的贡献分析：通过分析第二层集成随机森林中各类证据的重要性分数，研究量化了不同数据对预测的贡献。结果表明，对于生物学过程（BP）的预测，宏转录组共表达和序列相似性是最重要的两个特征，其平均重要性分数远高于基因组邻近性和结构域相互作用。这突显了宏转录组共表达在推断微生物群落蛋白功能中的关键作用。特别是在预测随时间新增的实验验证注释时，共表达证据依然贡献突出。
第五步：应用FUGASSEM预测人类肠道微生物组蛋白功能 在确认方法性能后，研究团队将FUGASSEM-Full模型应用于HMP2的全部546,251个蛋白质家族，进行大规模的GO功能预测。他们设定了两个置信度阈值：默认阈值（预测概率≥0.75）和严格阈值（≥0.85），以定义高置信度预测。
主要研究结果 1. 大规模功能预测成果：FUGASSEM成功为443,549个蛋白质家族（占总数的81.2%）分配了高置信度（默认阈值）的GO注释。其中包括：267,944个家族获得BP注释（占总数的49.1%，较原有的14.3%提升了3.4倍），364,652个获得分子功能（MF）注释，120,134个获得细胞组分（CC）注释。尤为重要的是，在全部预测中，有364,965个（82.3%）是先前未表征的蛋白家族。更引人注目的是，它为33,912个新型蛋白家族（即RH和NH类别，与UniProt中任何蛋白的序列相似性低于90%同一性或80%覆盖度）提供了高置信度功能注释，其中包含20,456个获得BP注释。 2. 显著扩展微生物组功能图谱：预测结果极大地扩展了人类肠道微生物，无论是常见菌还是研究较少物种的功能认知。例如，在携带新型蛋白最多的前25个物种中，平均每个物种被注释有BP术语的蛋白家族比例从预测前的12.1%提升至57.4%（默认阈值）。即使是像大肠杆菌（*Escherichia coli*）这样研究深入的物种，其存在于群落中的“泛基因组”也有大量未注释部分，FUGASSEM显著提升了其注释覆盖率。对于研究较少的物种如*Sutterella wadsworthensis*，其新型蛋白也获得了大量注释。 3. 揭示广泛存在和物种特异的功能：预测发现了许多广泛存在于多个物种的“看家”功能（如DNA复制、转录、细胞壁组织等），其蛋白多样性远超以往认知。例如，与“细胞形状调控”相关的蛋白在48个物种中新预测了542个新型蛋白。同时，FUGASSEM也预测了许多物种特异性的、更为专门化的功能，如毒素代谢、铁离子稳态、铵离子代谢、二羧酸转运等，这些功能可能与宿主互作、生态位适应密切相关。 4. 具体功能案例解析：研究提供了多个具体案例，展示了新预测功能的价值： * 肠道重要菌*Faecalibacterium prausnitzii*：预测发现了大量与病毒生命周期和抗病毒防御反应相关的未表征蛋白，它们与少数已知的噬菌体相关蛋白强烈共表达。此外，还预测了该菌中 CRISPR-Cas系统（类型1c和1e）的多个新组分，这些蛋白之间序列相似性中等但共表达强烈。 * 碳水化合物代谢专家*Bacteroides thetaiotaomicron*：预测了多个参与细胞碳水化合物分解代谢过程的新型蛋白，它们与已知的多糖利用位点（PUL）相关蛋白具有相似的结构域组成，并且表现出强烈的共表达模式，揭示了潜在的新碳水化合物降解能力。 * 其他菌群如*Hungatella hathewayi*、Subdoligranulum spp.等：FUGASSEM为这些研究较少的物种预测了与趋化性、钴胺素合成、肽聚糖合成、硫氨基酸合成等相关的功能，深化了对这些菌在肠道中生态角色的理解。
结论与研究意义 本研究成功开发了首个专门为复杂微生物群落设计的大规模蛋白质功能预测方法FUGASSEM。该方法通过创新性地整合群落多组学数据，特别是宏转录组共表达信息，克服了传统单一生物体方法在微生物群落应用中的局限性。应用该方法，研究极大地扩展了人类肠道微生物组的功能注释空间，为数以十万计先前未表征的蛋白质家族，包括数万个缺乏显著序列同源性的新型蛋白家族，提供了高置信度的功能假设。这项工作不仅将人类肠道微生物组中具有信息性BP注释的蛋白比例提升了三倍以上，更重要的是，它为探索微生物群落中功能“暗物质”提供了强有力的计算工具和丰富的数据资源。
研究的亮点与创新性 1. 方法学的重大创新：FUGASSEM是首个系统性地、专为微生物群落设计的功能预测框架，其两层随机森林架构能有效整合并加权多种群落特有的数据类型。 2. 数据驱动的突破：首次大规模证实并利用了宏转录组共表达模式在微生物群落功能关联推断中的强大信息价值，为群落功能研究开辟了新途径。 3. 预测广度与深度的结合：在保持与顶尖单一生物体方法相当甚至更优的预测准确性的同时，实现了对海量未培养、未表征物种及其新型蛋白的功能预测覆盖，解决了该领域的一个核心瓶颈。 4. 产出资源的宝贵性：研究提供了关于人类肠道微生物组蛋白质功能的空前规模的预测数据集，这些数据已公开，将极大地推动微生物组在健康、疾病和生态领域的基础与应用研究。 5. 研究设计的严谨性：通过多角度的性能评估，特别是时间推移验证，有力证明了预测结果的可靠性，有效规避了同源性注释循环的潜在偏倚。
其他价值 FUGASSEM的方法具有通用性，可推广至海洋、土壤等其他表征不足的微生物群落，有助于揭示全球各种生态系统微生物的功能多样性。该研究的开源工具和丰富数据，将为全球微生物组学界提供一个强大的资源平台，加速从微生物基因序列到其生态与生理功能的理解进程，最终为微生物组相关的诊断、疗法和生态干预提供新的分子靶点和机制见解。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问