基于矩阵补全的集成学习提高微生物-疾病关联预测

学术背景与研究问题

微生物作为地球上最广泛存在的生命形式之一,与海洋、土壤以及人类自身均有密切关系。人体内约含有350万亿个微生物细胞(microbial cells),与人类健康、疾病的发生和发展息息相关。近年来,随着测序技术与生物信息学的快速进步,大量研究聚焦于阐明人体微生态(microbiome)组成及其功能对健康产生的影响。例如,肠道菌群组成的变化能够影响机体免疫和疾病发生,肝脏代谢也被证实受肠道微生物调控,会通过降低能量消耗、促进脂肪沉积等促进代谢疾病发展。

尽管实验生物医学对微生物-疾病(microbe-disease)关联的揭示已做出巨大努力,但已被实验确定的疾病相关微生物数量仍十分有限,传统实验方法既耗时又高成本,因此亟需高效、精准的计算方法,用于筛查潜在的微生物-疾病关联。这不仅能够为疾病诊断和药物研发提供启发,还能促进微生物组学在医学领域的应用落地。

目前,已有多种生物信息学方法尝试解决这一问题,包括基于图论的随机游走(random walk)、二部局部模型(bipartite local models, BLMs)、矩阵分解/补全(matrix factorization/completion)、机器学习及深度学习等。其中,图结构方法容易受数据稀疏与噪音影响而降低准确率,机器学习则在处理高维特征选择方面具有挑战。近年来,基于多源异质数据整合的策略被寄予厚望,然而如何高效、鲁棒地融合这些复杂信息,依然是学界瓶颈。

论文来源与作者信息

本文题为《Ensemble learning based on matrix completion improves microbe-disease association prediction》,由Hailin Chen与Kuan Chen撰写,二人均来自中国东华交通大学School of Information and Software Engineering。该文于2025年发表于国际权威生物信息学期刊Briefings in Bioinformatics(Volume 26, Issue 2, bbaf075),并已通过开放获取发布。

研究流程及方法详述

1. 数据准备与特征融合

作者选用公开基准数据集(引自Wang L., et al., 2023),数据涵盖4499个已实验验证的微生物-疾病关联,涉及1177种微生物、134种疾病。此外,研究对微生物-微生物、疾病-疾病之间分别计算了四类关联相似性,具体如下:

  • 微生物相似性:功能相似性(Functional similarity, FS)、余弦相似性(Cosine similarity, COS_MS)、高斯交互特征相似性(Gaussian Interaction Profile similarity, GIP_MS)、S型核函数相似性(Sigmoid kernel similarity, SIG_MS)
  • 疾病相似性:语义相似性(Semantic similarity, DS)、余弦相似性(COS_DS)、高斯交互特征相似性(GIP_DS)、S型核函数相似性(SIG_DS)

在数据融合过程中,分别对四种相似性进行加权平均,分别得到微生物相似性矩阵(SM)与疾病相似性矩阵(SD)。随后,作者通过将上述两类融合相似性与微生物-疾病关联矩阵整合,构建了用于后续算法分析的整体融合矩阵X。

2. SABMDA: 集成学习矩阵补全框架

本研究提出了新的集成学习(Ensemble Learning)框架SABMDA (Similarity and Adjacency Based Matrix completion for Disease-microbe Association),由两大核心模块组成:

a) 基于奇异值阈值(SVT, Singular Value Thresholding)的矩阵补全

SVT算法最初应用于“Netflix问题”,用于大规模用户-物品兴趣预测,是经典的矩阵补全方法之一。此次被引入微生物-疾病预测领域,SABMDA首先对整合后的矩阵采用该算法,通过软阈值规则递推更新奇异值,优化矩阵的低秩重建能力,实现对未标注关联分数的初步补全。关键流程包括:

  • 迭代式更新评分矩阵X,每轮生成新矩阵Xi
  • 利用Lagrange乘子和Uzawa算法实现带约束的最优化
  • 结果用Sigmoid归一化,使所有关联得分约束于[0,1]区间

b) 有界核范数正则化(BNNR, Bounded Nuclear Norm Regularization)优化

为进一步增加结果的稳健性,SABMDA在SVT补全后引入了有界核范数正则化,为评分矩阵引入边界约束(所有得分均在0-1区间),并考虑数据中不可避免的噪声问题。这一环节以交替方向乘子法(ADMM, Alternating Direction Method of Multipliers)实现高效迭代,确保优化后分数既具有低秩特性,又能兼容原始观测点,提升预测的可靠性和泛化能力。

3. 实验设计与评估流程

研究采用如下严格的实验分组与评测指标:

  • 5折交叉验证(5-fold CV)、10折交叉验证(10-fold CV)、独立测试(Independent Test, 按疾病行切分为8:1:1)以全面评估模型泛化能力。
  • 指标方面考察AUC(ROC曲线下面积)、AUPR(PR曲线下面积)、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-score。
  • 多参数敏感性分析,优化阈值τ、步长δk、迭代次数n及正则化参数α、罚项参数β,最终确定最佳组合(τ=10, δk=0.1, n=500, α=1.0, β=50.0)。
  • 消融实验:分别剔除SVT、BNNR子模块,验证两者组合对性能的提升。
  • 与7种最新代表性基线方法对比,包括:SGJMDA、DSAE_RF、AMHMDA、MHCLMDA、MNNMDA、LRLSHMDA、NTSHMDA。

研究主要结果

1. 参数敏感性与优化

通过系统性参数调整发现,低阈值的SVT(τ=10)和小步长(δk=0.1)可获得最优性能,迭代次数多至500时模型表现最优,正则系数α与罚项β调至1.0和50.0则平衡了低秩约束与拟合误差。

2. 消融实验结果

消融实验表明,SVT和BNNR两个模块均为模型不可或缺的组成部分:单用SVT或BNNR均难以达到SABMDA集成后的高准确率。两轮矩阵补全过程能够递进式地填补原始矩阵缺失值,从而显著提升完整矩阵的预测能力。

3. 跟主流方法的对比性能

  • 在10-fold CV测试中,SABMDA的AUC高达0.9934,AUPR为0.9930,数据远超其余任一方法(如SGJMDA的AUC仅0.9495)。
  • 在5-fold CV与独立测试上亦表现出色,在准确率、召回率、F1-score等综合指标上处于领先,并有统计学显著性。
  • 在使用其它公开数据集(如miRNA-疾病关联数据集HMDD v3.2)上同样展现出广泛适用性(AUC=0.9475,AUPR=0.9540)。

4. 案例研究

作者以肥胖症(Obesity)、哮喘(Asthma)等疾病为例,通过将对应已知关联信息模拟隐藏,SABMDA成功预测出一批候选微生物,并通过PubMed最新文献严格查证有关微生物在相应疾病患者中的丰度变化(升高/降低)。以肥胖症为例,候选名单中的Haemophilus、Paraprevotella、Akkermansia等均获得实证支持;哮喘相关候选如Bifidobacterium、Helicobacter pylori、Faecalibacterium亦有部分文献证据。对于Crohn’s disease等其他病例,模型提出的未知关联微生物也为后续实验提供了重要指引。

研究结论与意义

本文系统提出并验证了基于矩阵补全的集成学习策略(SABMDA),在微生物-疾病关联预测领域达到了目前国际先进水平。这一方法的科学价值体现在:

  • 利用多源异质生物医学信息,充分融合疾微生物间复杂关联,是对传统方法的理论与方法学突破。
  • 开发的两轮矩阵补全策略不仅提升了预测鲁棒性,也解决了大规模缺失场景下传统机器学习模型易受噪声干扰的问题。
  • 可以拓展至疾病诊断、药物研发、微生物组个性化医疗等领域,为基础科学与转化医学搭建桥梁。

研究亮点与创新之处

  1. 理论层面创新:首次将SVT与BNNR两大矩阵补全算法多级集成应用于该领域,有效融合低秩约束、边界约束及噪声容忍力。
  2. 实验严格严谨:全流程消融分析、多种基准数据集、多重指标交叉验证,保证了结果的客观性和参考价值。
  3. 数据处理策略前沿:多源异质信息特征工程,特征融合方法科学严密,显著提升协同利用能力。
  4. 产业与应用前景广阔:代码已公开(https://github.com/iamchenhailin/sabmda),便于学界快速扩展、复现与应用。
  5. 生物学意义显著:揭示了多个潜在微生物-疾病新关联,为后续机制研究和实验提供重要参考点。

其他有价值的信息

作者均保证无利益冲突;本研究获得江西省自然科学基金资助(编号20242BAB25083)。数据与算法均已开放获取,便于全球生物信息学界验证与拓展。文章还反思性地指出,目前的关联预测仅为“相关”并非“因果”,微生物与疾病间具体致病或保护机制仍需进一步机制实验研究,这为全领域后续研究指明了方向。

本文不仅在微生物-疾病关联精准预测领域做出关键突破,更以其创新的数据融合策略和算法架构,为复杂生物网络数据分析与关联推断打开了新局。