关于 MHGNN:一种用于预测草药-症状相互作用的多重超图神经网络研究的学术报告
本研究由来自四川大学的 Xudong Liang 和 Tao Lin,重庆医科大学的 Biao Xie 和 Wei Wang,以及电子科技大学(同时隶属重庆中医药学院)的 Yong Tang 共同完成。该研究以论文形式发表于 IEEE Transactions on Neural Networks and Learning Systems 期刊,接收日期为 2026年3月19日。
一、 学术背景 本研究的核心科学领域是计算生物学与人工智能的交叉应用,具体聚焦于利用图神经网络(Graph Neural Networks, GNNs)和超图神经网络(Hypergraph Neural Networks, HGNNs)来预测传统中医(Traditional Chinese Medicine, TCM)中的草药-症状相互作用(Herb–Symptom Interactions, HSIs)。在TCM实践中,草药通过其多组分、多靶点的协同作用来治疗症状,这种复杂的调控机制可以抽象为生物网络中的相互作用关系。理解HSIs对于阐明草药的系统作用机制、推动数据驱动的精准中医至关重要。
以往的计算方法主要依赖于网络药理学或图神经网络。网络药理学使用预定义的图论指标分析静态生物网络,在处理异质、动态网络时缺乏足够的灵活性和泛化能力。GNNs虽然能动态聚合网络信息,但其主要建模的是节点间的成对(低阶)关联,难以捕捉草药作用于多个靶点所产生的高阶协同效应。而现有的HGNNs方法虽然能通过超边(hyperedge)建模高阶关系(例如,一种草药关联多个蛋白质),但仍存在两个主要局限:第一,它们通常只建模草药的直接作用,而忽略了其通过蛋白质相互作用网络(Protein-Protein Interaction, PPI)产生的间接调控效应;第二,在模型训练时,通常从未观测到的草药-症状对中随机采样作为负样本,由于现有标注数据的不完整性,这种随机采样很可能引入大量“假阴性”样本(即实际有效但未被标注的相互作用),从而误导模型训练,降低预测可靠性。
因此,本研究旨在解决上述挑战,其核心目标是开发一个能够同时捕捉草药-症状间高阶、间接作用关系,并能有效缓解假阴性样本干扰的新型计算框架,以更准确地预测潜在的HSIs。
二、 研究流程详述 本研究提出了一种名为 MHGNN(Multiplex Hypergraph Neural Networks)的新型学习框架。整个工作流程可以概括为以下几个关键步骤:
数据准备与多重超图构建:
- 研究对象与数据来源: 研究使用了两个公开的TCM数据集:HIT和TCMIO。这些数据集整合了来自多个数据库的信息,包括:草药-蛋白质关联数据(来自HIT 2.0或TCMIO数据库)、症状-蛋白质关联数据(来自SymMap数据库)以及人类蛋白质相互作用数据(整合自21个公共数据库)。具体而言,HIT数据集包含1,117种草药、4,183种症状、18,013个蛋白质、232,923个已知HSIs和超过1,500万对PPI;TCMIO数据集包含1,103种草药、4,183种症状、17,265个蛋白质、232,923个已知HSIs和超过1,500万对PPI。
- 图结构建模: 将上述数据建模为一个多重超图(Multiplex Hypergraph)。该图包含三类节点:蛋白质、草药、症状。边/超边被组织成三个“组”:PPI边组(连接相互作用的蛋白质对,代表低阶关系)、草药超边组(每个超边连接一种草药及其所有关联的蛋白质,代表高阶关系)、症状超边组(每个超边连接一种症状及其所有关联的蛋白质,代表高阶关系)。这种统一的建模方式能够同时容纳低阶的蛋白质相互作用和高阶的草药/症状-蛋白质关联。
MHGNN模型学习: MHGNN的学习过程分为两个主要阶段,采用分层消息传递机制。
- 第一阶段:人类蛋白质相互作用组学习。 此阶段旨在学习蛋白质在PPI网络中的特征表示,以理解草药可能通过蛋白质网络产生的间接效应。
- 蛋白质特征初始化: 首先,使用DeepWalk算法在PPI网络上进行随机游走,利用Skip-gram模型学习每个蛋白质节点的初始低维向量表示。这捕获了蛋白质在相互作用网络中的局部邻域结构。
- 固定邻居采样与聚合: 鉴于PPI网络规模庞大,为了高效学习,MHGNN采用了一种固定大小的邻居采样策略。对于每个蛋白质节点,从其所有邻居中随机采样固定数量(k个)的邻居节点。如果邻居不足k个,则进行重复采样;如果超过k个,则随机选择k个。然后,使用均值聚合函数聚合这些采样邻居的特征信息,并与节点自身特征结合,通过一个可学习的权重矩阵和非线性激活函数(ReLU)更新蛋白质节点的表示。这个过程可以堆叠多层,但研究发现单层(lp=1)效果最佳。
- 第二阶段:草药-症状超图学习。 此阶段旨在通过超图卷积,学习草药和症状的高阶表示,即捕捉它们通过关联多个蛋白质而产生的系统效应。
- 两阶段消息传递: 在构建的草药-症状超图上,采用“节点-超边-节点”的两阶段消息传递机制。首先,消息从蛋白质节点传递到其所属的超边(草药或症状):属于同一超边的所有蛋白质节点将其特征进行平均,聚合为该超边的消息,然后更新超边的表示。接着,消息从超边传递回蛋白质节点:每个蛋白质节点聚合其所属所有超边(即与之关联的所有草药和症状)更新后的特征,再次进行平均,并结合自身特征更新其表示。这个过程通过可学习的参数和非线性激活,能够迭代地捕获蛋白质、草药、症状之间的高阶交互模式。
基于网络的负采样策略: 为了解决随机负采样带来的假阴性问题,本研究设计了一种新颖的基于网络邻近性的负采样(Network-based Negative Sampling)策略。
- 核心思想: 在人类蛋白质相互作用组中,与草药相关的蛋白质集合和与症状相关的蛋白质集合之间的平均最短路径距离(Network Proximity, NP距离)越大,通常意味着它们之间的功能相关性越低,因此更可能构成真实的负样本(即无相互作用)。
- 采样方法: 对于每种草药,计算其与所有症状的NP距离。然后根据公式将NP距离转化为采样概率(距离越大,被选为负样本的概率越高)。为了平衡样本质量与多样性,避免采样过于集中于少数高距离对,算法引入了一个随机种子。以50%的概率,从NP距离最大的前k个症状中按上述概率采样;另外50%的概率,则从剩余的症状中随机采样。这种混合策略确保了负样本既具有高质量(低假阴性风险),又保持了足够的多样性。
HSI预测与模型训练:
- 特征拼接与预测: 经过上述学习后,得到每种草药和每种症状的最终高维表示向量。对于一个待预测的草药-症状对,将两者的表示向量进行拼接(Concatenation),形成一个联合特征向量。
- 深度神经网络预测器: 将该联合特征向量输入到一个深度神经网络(Deep Neural Network, DNN)预测器中。DNN由多个全连接层组成,隐藏层使用ReLU激活函数,最终输出层使用Sigmoid激活函数,输出一个介于0到1之间的概率分数,表示该草药-症状对存在相互作用的预测概率。
- 损失函数与训练: 使用二元交叉熵损失函数来衡量预测概率与真实标签(已知的HSI为1,采样的负样本为0)之间的差异,并采用Adam优化器对模型所有参数进行端到端的训练。模型性能通过10折交叉验证进行评估。
三、 主要结果 1. 与基线模型的对比结果: 在HIT和TCMIO两个数据集上,MHGNN与13种先进的基线方法(包括非GNN方法、GNN方法和HGNN方法)进行了全面比较。评估指标包括准确率(ACC)、F1分数(F1)、ROC曲线下面积(AUC)和精确率-召回率曲线下面积(AUPR)。实验结果表明,MHGNN在所有指标上均 consistently 取得了最佳性能。例如,在HIT数据集上,MHGNN相比次优的基线模型KHGNN,ACC提升了1.5%,F1提升了1.8%,AUC提升了1.3%,AUPR提升了1.0%。这直接证明了整合低阶PPI和高阶HSI的多重超图学习框架的有效性。研究还观察到,GNN/HGNN类方法普遍优于非GNN方法,而MHGNN相比静态网络分析方法NP的提升尤为显著(例如ACC提升超过21%),凸显了动态建模复杂草药作用模式的优势。
消融实验结果: 为了验证MHGNN各个组件的贡献,进行了系统的消融研究。
- 移除超图模块(-HG): 性能下降最为显著(例如在HIT上AUPR下降4.8%),这强有力地证明了超图在建模草药多靶点系统效应中的关键作用。
- 移除PPI学习模块(-PPI): 性能出现一定程度的下降,表明整合PPI网络信息有助于模型理解草药在人体内通过信号转导等过程产生的间接调控效应。
- 改变负采样策略: 使用纯网络采样(-ns network)或纯随机采样(-ns random)的变体,性能均差于MHGNN采用的混合策略。对负样本分布的分析显示,MHGNN的策略能在保证较大NP距离(高质量负样本)样本数量的同时,维持较小NP距离样本的均匀分布,从而在样本质量和多样性之间取得了最佳平衡。纯网络采样过于集中于高距离对,缺乏多样性;纯随机采样则无法控制质量,可能引入大量假阴性。
参数分析结果: 对关键超参数的敏感性分析为模型配置提供了指导。
- 学习率(lr): 设为0.002时性能最佳,过高(如0.02)会导致性能显著下降。
- PPI邻居采样数(k): k=10时达到最佳性能,说明适度的局部邻居信息聚合最有效,过多邻居会引入噪声。
- 网络负采样参数(n): 在HIT和TCMIO数据集上的最优值分别为10和20,表明此参数可能与数据集的具体分布有关。
- 网络层数: PPI学习模块层数(lp)为1时最佳,超图学习模块层数(lh)为2时最佳。过深的层数会导致过平滑和信息压缩,反而不利于学习区分性特征。
案例研究结果:
- PPI整合的有效性验证: 研究选取了两个典型案例进行深入分析。预测结果显示,川贝母(Fritillaria unibracteata)与咳嗽的相互作用概率高达0.9917,而梅花(Plum flower)与嗅觉受损的相互作用概率仅为0.0124。t-SNE可视化表明,高评分对的关联蛋白质在潜在空间中形成紧密簇,而低评分对的蛋白质则较为分散。进一步分析PPI网络发现,川贝母与咳嗽共享STAT3蛋白,且它们的关联蛋白质之间存在密集的交叉连接,暗示了多通路调控的可能性。这些计算预测与已有的药理学研究结果(川贝母生物碱具有镇咳、抗炎活性)高度一致,从机制和实证两方面支持了模型整合PPI信息的合理性和可解释性。
- 通过归纳式表示学习桥接TCM证候与症状: 研究展示了MHGNN的归纳学习能力,可以为训练集中未见过的新症状(如“咽痛”、“痰多”)基于其关联的蛋白质生成表示。通过将肺热证(包含咳嗽、发热、咽痛、痰多等症状)的所有症状相关蛋白质表示进行平均池化,得到了证候层面的表示。可视化显示,这些症状的蛋白质在特征空间中形成一个紧凑的簇,反映了它们共同的分子基础。其中,发热的蛋白质占据中心位置,与TCM理论中“热”为肺热证核心病机的观点相符;咳嗽和痰多的蛋白质彼此靠近,对应于气道高分泌和黏膜损伤通路,体现了症状间的层次关系。这证明了MHGNN能够模拟证候级表示并揭示症状间的关联,在分子机制与TCM理论之间架起了桥梁。
四、 结论与价值 本研究的结论是,所提出的MHGNN框架通过多重超图建模和分层消息传递,能够有效联合学习草药-症状相互作用中的低阶(蛋白质相互作用)和高阶(多靶点协同)关系,并结合创新的基于网络的负采样策略缓解了假阴性问题,从而显著提升了HSI预测的准确性。该研究为理解草药的多靶点、系统性作用机制提供了一个强大的计算工具。
其科学价值在于:第一,首次将多重超图神经网络引入HSI预测领域,为建模复杂的生物医学高阶关系提供了新范式;第二,提出的网络负采样策略为解决生物网络链接预测中普遍存在的标注不完整问题提供了新思路。其应用价值在于:能够作为高效的初步筛选工具,加速TCM新适应症的发现和复方配伍规律的研究,推动数据驱动的精准中医发展。
五、 研究亮点 1. 方法创新性: 提出了首个用于HSI预测的多重超图神经网络框架(MHGNN),创新性地将PPI网络与草药-症状超图统一建模,从而同时捕获直接和间接的、低阶和高阶的生物学关联。 2. 问题针对性: 专门设计了基于网络邻近性的负采样策略,有效缓解了由于标注不全导致的假阴性样本污染问题,提升了模型训练的鲁棒性和预测可靠性。 3. 性能优越性: 在两个公开基准数据集上全面超越了包括最新HGNN模型在内的13种基线方法,证明了其卓越的预测能力。 4. 可解释性与泛化性: 案例研究不仅验证了预测结果的生物学合理性,还展示了模型能够进行归纳学习,推断新症状的表示并桥接TCM证候理论与分子网络,增强了模型的可解释性和实用潜力。
六、 其他有价值内容 论文在讨论部分也坦诚指出了当前工作的局限性并展望了未来方向:首先,模型目前以草药关联的蛋白质集合来代表草药,忽略了草药内具体活性成分与靶点之间的分子互作细节,未来可考虑纳入成分-靶点互作信息以进行更精细的机制建模。其次,模型使用的症状术语基于标准化生物医学词汇,可能未能完全捕捉TCM独特的辨证论治模式(如舌象、脉象参数),未来融合TCM专家知识或证候诊断标准有望进一步提升模型与TCM理论的一致性及预测的实用性。