分享自:

异构网络共聚类框架HetFCM的功能共模块发现方法

期刊:nucleic acids researchDOI:10.1093/nar/gkad1174

学术研究报告:基于异质网络共聚类的功能共模块发现方法HetFCM

作者与发表信息

本研究由山东大学软件学院的Haojiang Tan、Maozu Guo、Jian Chen、Jun Wang及Guoxian Yu共同完成,发表于*Nucleic Acids Research*期刊2024年第52卷第3期(e16),2023年12月13日在线优先出版。


学术背景

研究领域与动机
该研究属于生物信息学与系统生物学交叉领域,聚焦于功能分子模块(functional molecular modules,如基因-miRNA共模块或基因-miRNA-lncRNA多层模块)的发现。传统方法因多组学数据整合不足和跨层调控建模不完善,导致关键遗传信息丢失和模块检测性能受限。本研究旨在开发一种新型框架HetFCM(Heterogeneous Network Co-clustering Framework),通过异质网络建模与自适应加权共聚类,解决上述问题。

科学问题与目标
分子模块以协作方式调控表型或疾病机制(如乳腺癌亚型或玉米抗旱性),但现有方法存在三大局限:
1. 依赖单一组学数据(如转录组),忽略序列或互作数据;
2. 难以捕捉潜在跨层关联;
3. 缺乏扩展性,无法动态整合多类型分子数据。
HetFCM的目标是通过属性异质网络建模变分图自编码器(Variational Graph Autoencoders, VGAE)生成跨层关联矩阵,进而识别拓扑紧密且功能显著的共模块。


研究流程与方法

1. 多组学数据融合(MODF)
- 数据预处理:整合人类(1,089样本)和玉米(36样本)数据集,包括基因-miRNA互作矩阵(W₁₂)、基因表达(X₁₁)、基因互作(X₁₂)、基因序列特征(X₁₃)、miRNA表达(X₂₁)及序列特征(X₂₂)。
- 异质网络构建:将基因与miRNA节点平等处理,构建邻接矩阵A∈ℝ⁽ᵍ⁺ᵐ⁾ˣ⁽ᵍ⁺ᵐ⁾,并通过主成分分析(PCA)降维特征。
- 跨层关联生成:采用多VGAE模型,以A和属性数据{hᵢ}为输入,生成重构的关联矩阵{A′ᵢ},提取基因-miRNA关联矩阵{W′ᵢ},保留Top T未知关联对以减少噪声。

2. 自适应加权共聚类(AWCC)
- 目标函数设计:联合优化关联矩阵权重(w)和表达数据因子分解,通过以下目标函数实现:
- O₁:最小化关联矩阵与聚类分布(G₁, G₂)的差异,引入正则化项γ‖w‖²避免过拟合。
- O₂:分解基因/miRNA表达数据为共享基矩阵B和聚类分布Gᵢ,添加正交约束β‖GᵢᵀGᵢ−I‖²减少模块重叠。
- 交替优化:迭代更新G₁、G₂、B、Sᵢ和w,直至收敛。

3. 共模块发现(CMD)
- 阈值策略:基于聚类分布矩阵G₁和G₂,计算Z-score并设定阈值(t₁, t₂),生成基因和miRNA的模块指示矩阵F₁、F₂。
- 多层模块扩展:通过计算基因模块的Jaccard相似性,链接基因-miRNA与基因-lncRNA共模块,形成三层功能模块。


主要结果

1. 性能评估
- 分子水平:在人类乳腺癌数据集中,HetFCM的AUROC(0.7775)和AUPRC(0.4803)显著优于对比方法(如JONMF、HOGMHC),证实多组学数据融合提升关键分子识别能力。
- 模块水平:模块性(Modularity)分析显示,HetFCM的共模块拓扑更紧密(p值<1e-5)。功能富集分析表明,73%的共模块中基因与miRNA层协同参与相同通路(如p53信号通路)。

2. 生物学发现
- 乳腺癌关联:共模块5包含89%的乳腺癌相关基因,显著富集于有丝分裂核分裂(GO:0140014)和细胞周期(WikiPathways WP179),其基因(如COL1A1)与miRNA(如hsa-let-7b)协同调控肿瘤发生。生存分析证实高表达模块患者预后较差(p<0.01)。
- 玉米性状关联:共模块26与抗旱性相关,包含已知靶基因Zm00001d015375及潜在协同基因(如Zm00001d042525),通过氧化应激响应通路(GO:0006979)调控表型。

3. 方法扩展性
HetFCM成功识别基因-miRNA-lncRNA三层模块(如模块1含lncRNA MEG3),其分子(如PPARG、hsa-mir-143)在乳腺癌中具有已验证的调控关系。


结论与价值

科学价值
- 方法学创新:首次将多VGAE与自适应加权共聚类结合,解决异质分子网络的数据整合难题。
- 应用价值:为癌症机制解析(如亚型特异性模块)和作物育种(如玉米油脂合成模块)提供新工具。

亮点
1. 多组学动态融合:支持灵活整合新数据类型(如基因组序列)。
2. 跨层关联挖掘:通过VGAE捕捉非线性调控关系。
3. 临床与农业应用:发现乳腺癌亚型模块和玉米抗旱基因模块。


其他亮点

(注:全文术语首次出现时保留英文并标注中文,如“变分图自编码器(Variational Graph Autoencoders, VGAE)”)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com