分享自:

基于动态加权伪标签学习的结构感知图卷积网络矩阵分解模型用于药物不良反应预测

期刊:Journal of Chemical Information and ModelingDOI:10.1021/acs.jcim.6c00294

DWPL-GCNMF:一种用于预测药物不良反应(Adverse Drug Reaction, ADR)的结构感知动态加权伪标签学习框架

一、 作者、机构与发表信息

本研究的主要作者为 Hailin Chen 和 Kangkang Luo,二人均来自中国华东交通大学的软件与信息工程学院。该项研究工作以题为“DWPL-GCNMF: Structure-Aware Dynamic Weighted Pseudo-Label Learning for Adverse Drug Reaction Prediction”的论文形式,发表于美国化学学会(American Chemical Society, ACS)旗下的期刊 *Journal of Chemical Information and Modeling*。论文于2026年1月29日收稿,并于2026年3月26日修订后被正式接受发表。

二、 学术背景与研究目标

本研究属于计算药物安全性与生物信息学交叉领域,核心任务是药物不良反应(ADR)预测。在药物研发和上市后监测中,及时准确地预测药物潜在的不良反应对于保障患者安全、降低临床风险至关重要。然而,现有药物-ADR关联知识通常以极其稀疏的二元矩阵形式存在(例如,已知关联仅占所有可能药物-ADR对的2%-3%),且该问题具有“正样本-未标注样本”(Positive-Unlabeled, PU)学习的特性——即未观察到的药物-ADR对不一定是真正的负样本。这种数据的高度稀疏性和PU特性使得传统监督学习方法面临严峻挑战,模型泛化能力受限,容易产生有偏的决策边界。

尽管已有多种计算方法被应用于此问题,如基于相似性的推理、低秩矩阵分解(Matrix Factorization, MF)、核学习以及近期的神经网络表征学习方法,但它们仍面临两个关键挑战:首先,在极端稀疏数据下,模型训练严重依赖有限的已标注正样本,性能受限;其次,许多方法未能充分利用药物-蛋白质相互作用等关系型结构信息,而这些信息对于理解ADR的潜在生物学机制(如脱靶效应)至关重要。伪标签(Pseudo-Labeling)或自训练(Self-Training)策略可以扩展训练集,但若不加区分地将所有伪标签视为同等可靠,会引入噪声并加剧确认偏差(Confirmation Bias),最终损害模型性能。

基于以上背景,本研究旨在开发一个更鲁棒、更准确的药物-ADR预测框架。其主要目标包括:1) 整合药物-蛋白质相互作用等结构信息,学习药物和ADR更丰富的表征;2) 设计一种能够自适应权衡伪标签可靠性的学习策略,以缓解稀疏性问题同时避免噪声积累;3) 构建一个整体框架,通过集成多个基模型来提升预测的稳定性。最终,作者提出了一个名为 DWPL-GCNMF(Structure-Aware Dynamic Weighted Pseudo-Label Learning with Graph Convolutional Network and Matrix Factorization)的新型半监督框架。

三、 研究方法与详细流程

DWPL-GCNMF的总体流程如图1所示,主要包括以下核心步骤:

1. 数据准备与图构建: 研究使用了两个公开基准数据集以评估模型性能:一个基于DrugBank构建(包含1,177种药物和4,247个ADR术语,已知关联131,209对,密度约2.625%),另一个基于SIDER构建(包含1,080种药物和5,579个ADR术语,已知关联136,605对,密度约2.267%)。SIDER数据集采用更细粒度的医学术语(MEDDRA Lower Level Term),且数据更加稀疏,用于测试模型在不同数据集和更高稀疏度下的鲁棒性。此外,研究还整合了1,749个靶点蛋白和10,715对药物-蛋白质相互作用信息。 基于这些数据,模型首先构建了一个异构关系网络(知识图谱,Knowledge Graph, KG)。该图谱包含两类节点:药物节点和蛋白质节点(通过药物-蛋白质相互作用关联)。药物-ADR的已知关联矩阵 A 被单独构建,作为后续预测的目标。

2. 结构感知表征学习(基于图卷积网络 - GCN): 为了捕捉药物在生物网络中的结构信息,作者利用构建的药物-蛋白质知识图谱作为输入,应用图卷积网络来学习节点的结构感知嵌入(Structure-Aware Embeddings)。图卷积操作通过聚合节点的邻域信息,能够捕获药物和蛋白质之间高阶的拓扑关系和潜在的依赖模式。具体更新规则如公式(2)所示,经过多层卷积后,模型得到所有节点的嵌入矩阵 *H*。其中,前 m 行(药物数量)为药物嵌入矩阵 *U*,剩余的 n 行(ADR数量)为ADR嵌入矩阵 *V*。这些嵌入编码了丰富的结构信息,为后续的关联预测提供了信息化的特征表示。

3. 基于加权矩阵分解(WMF)的关联评分: 获得药物和ADR的嵌入表示后,模型将药物-ADR关联预测任务构建为一个加权矩阵分解问题。对于药物 i 和ADR j 的预测分数 *s_ij*,通过其对应的嵌入向量 u_i 和 *v_j*,以及一个可训练的缩放向量 *h*,按公式(4)进行计算。随后,通过Sigmoid函数将分数映射为关联概率 *y_ij*,如公式(5)所示。

4. 动态加权伪标签学习(核心创新点): 为缓解数据稀疏性,模型引入了伪标签自训练机制。在每一轮训练中,模型对当前未标注的样本进行预测,并基于预设的阈值 *τ*(如公式(6)所示,将高于阈值的预测视为正伪标签)生成候选伪标签。 与以往简单将伪标签视作真实标签的方法不同,DWPL-GCNMF的核心创新在于提出了一个预测一致性驱动的动态加权伪标签学习策略。该策略旨在明确地建模伪标签的不确定性,并自适应地调整其在优化过程中的贡献。 具体而言,对于每个药物-ADR对 *(i, j)*,模型计算两个偏差:模型预测值 y_ij 与原始标注 y_ij^0 的偏差 *e_ij^(0)*,以及模型预测值 y_ij 与扩展伪标签 y_ij^l 的偏差 *e_ij^(1)*。基于这些偏差,为每个样本动态计算一个权重 *w_ij*,如公式(8)所示。该权重计算结合了对数偏差与一个平滑因子 γ 和权衡参数 *α*,其中 α 控制模型对原始标签和伪标签的相对信任度。这个加权机制能够自动降低那些预测不稳定或与模型当前认知不一致的伪标签样本在损失函数中的权重,从而减少噪声伪标签对模型训练的负面影响。最终的优化目标函数如公式(9)所示,是一个在动态权重约束下的二元交叉熵损失函数,并加入了L2正则化项以防止过拟合。

5. 多模型融合与最终预测: 为了进一步提升模型的鲁棒性和稳定性,作者采用了集成学习策略。他们构建了多个结构相同(均包含GCN嵌入学习和动态加权伪标签学习)但独立训练的基模型。每个基模型训练完成后输出一个药物-ADR关联预测分数矩阵 *Y^(k)*。最后,通过公式(11)对所有基模型的输出分数矩阵进行简单平均,得到最终的药物-ADR关联预测分数矩阵 *Y*。这种融合策略能够利用不同基模型预测中的互补信息,降低单一模型的不确定性。

6. 实验设置与评估: 实验将药物-ADR预测任务视为二分类问题,已知关联为正样本,未观察关联为负样本。采用5折交叉验证评估模型性能。评估指标全面,包括AUPR、F1-Score、平均倒数排名(MRR)、准确率(Precision)、召回率(Recall),以及针对实际应用场景的Top-K指标(Precision@15和Recall@15)。模型参数(如学习率、伪标签阈值 *th*、权衡参数 alpha 等)均进行了调优。

四、 主要研究结果

1. 模型整体性能对比: 作者将DWPL-GCNMF与六个代表性基线方法(包括FGRMF、IDSE-HE、Galeano等人的方法、Logistic MF、MCS-MKL和WPLMF)在两个基准数据集上进行了全面比较。 - 在DrugBank数据集上:DWPL-GCNMF取得了所有指标中的最佳或接近最佳表现。其中,AUPR达到0.6656,F1-Score达到0.6194,均显著优于其他基线。例如,相较于性能最好的基线WPLMF(AUPR: 0.6553,F1: 0.6095),DWPL-GCNMF实现了稳步提升。在Top-K指标上,Recall@15达到0.8078,表明其在候选优先排序(Candidate Prioritization)方面具有显著优势。 - 在SIDER数据集上:DWPL-GCNMF同样保持了性能领先(AUPR: 0.6106,F1: 0.5816),优于最强的基线WPLMF(AUPR: 0.6031,F1: 0.5744)。值得注意的是,SIDER数据集更稀疏且术语粒度不同,这一结果证明了模型在不同数据分布和更高稀疏度下具有良好的泛化能力。

2. 稀疏性鲁棒性分析: 为了检验模型在数据有限情况下的表现,作者通过逐渐降低训练集比例(从100%降至60%)来模拟不同程度的稀疏场景。结果表明,在所有稀疏度设置下,DWPL-GCNMF均能获得最优或接近最优的F1-Score。特别是在训练数据比例较低时,其相对于基线方法的优势更为明显。当移除伪标签机制(DWPL-GCNMF-noPL)后,模型性能在多个稀疏度水平上均出现下降,这直接证明了伪标签学习对于缓解矩阵稀疏性的有效性。结果证实了结构感知表征学习和动态加权伪标签策略协同作用,能够有效增强模型在稀疏数据下的鲁棒性。

3. 超参数敏感性分析: 研究对关键超参数——伪标签阈值(*th*)和权衡参数(*α*)的影响进行了深入分析。 - 伪标签阈值(*th*):如图3和图4所示,th 主要控制了伪标签的“质”(命中率)与“量”(生成数量)之间的权衡。阈值较低时,生成的伪标签数量庞大但噪声较多;阈值较高时,伪标签质量提升但数量锐减。实验表明,当 th 设置在0.6-0.7左右时,模型性能(AUPR, F1-Score)达到最佳,说明适度的阈值可以在扩大训练集和控制噪声之间取得平衡。 - 权衡参数(*α*):如图4和图5所示,在固定阈值下,α 主要起到微调模型对伪标签信任度的作用。它对整体性能趋势影响相对较小,但通过调节 α 可以在一定程度上优化结果。

4. 消融实验: 为了评估DWPL-GCNMF各核心组件的贡献,作者进行了一系列消融实验,依次移除了集成策略、伪标签机制、GCN模块和动态加权模块。 - 移除集成策略导致性能下降最为显著(AUPR从0.6656降至0.6315),表明集成学习对于降低泛化误差、提升预测稳定性至关重要。 - 移除伪标签机制(DWPL-GCNMF-noPL)也造成了明显性能损失,证实了伪标签能为模型提供额外的潜在关联信息,有效缓解数据稀疏问题。 - 移除GCN模块会使性能减弱,突显了从药物-蛋白质知识图谱中学习结构感知嵌入对于准确预测ADR的重要性。 - 移除动态加权模块同样导致了性能下降,表明该模块在稳定训练过程、抑制低质量伪标签噪声方面发挥了积极作用。

5. 对低频药物/ADR的预测能力分析: 针对数据中存在的长尾分布问题,作者分析了模型对不同频率(出现次数)的药物和ADR的预测误差。结果表明,随着药物或ADR出现频率的增加,所有模型的预测误差都逐渐降低,这说明高频样本更容易被准确预测。然而,在低频药物和低频ADR区域,DWPL-GCNMF(特别是结合了伪标签和动态加权的完整版本)相较于其他变体,表现出了最小的预测误差。这证实了伪标签机制有助于为罕见样本提供补充的训练信号,而动态加权则进一步抑制了噪声伪标签的负面影响,两者的结合有效提升了模型对低频、稀疏样本的预测能力。

6. 案例研究: 为了验证模型在实际应用中的潜力,作者进行了案例研究。他们从DrugBank数据集中,选取了模型预测分数最高但未记录在数据库中的30个药物-ADR关联对,并通过查询PubMed等外部文献资源进行人工验证。结果显示,在这30个预测关联中,有23个(约76.7%)获得了外部证据支持。对于未找到文献支持的7个预测,作者指出这并不一定是错误预测,而可能反映了现有ADR数据库覆盖的不完整性,或提示了尚未被系统研究过的潜在安全信号。 此外,针对低频药物和低频ADR的扩展案例研究也取得了积极结果:在20个低频药物-ADR预测对中,有11个(55%)得到了外部资源的验证,进一步支持了模型在预测罕见或研究不足的ADR方面的实用价值。

五、 结论与研究价值

本研究成功提出了DWPL-GCNMF——一个整合了图卷积网络结构嵌入、矩阵分解评分以及预测一致性驱动动态加权伪标签学习的半监督框架,用于药物-ADR关联预测。通过在两个具有不同稀疏度和术语粒度的基准数据集上的系统性实验,证明了该框架在AUPR、F1-Score、Recall@15等多个评价指标上持续优于现有代表性基线方法,并且在数据高度稀疏的场景下展现出更强的鲁棒性。

本研究的科学价值与应用价值体现在: 1. 方法论创新:提出的动态加权伪标签学习策略为半监督学习领域,尤其是正样本-未标注样本学习问题,提供了一种新颖且有效的解决方案。它通过量化伪标签不确定性并动态调整其权重,在利用未标注数据和防止噪声累积之间取得了良好平衡。 2. 计算药物安全领域的贡献:该框架将生物网络的结构信息(药物-蛋白质相互作用)与高效的矩阵分解模型相结合,更深入地挖掘了ADR潜在的生物学机制,提升了预测的准确性和可解释性基础。 3. 实践应用潜力:模型优异的Top-K预测性能使其能够作为药物警戒(Pharmacovigilance)和药物安全评估的辅助工具,有效优先排序高风险的潜在ADR,供研究人员和监管机构进行后续实验验证或临床监测,从而加速药物安全预警流程,降低患者风险。 4. 良好的泛化能力:模型在外部数据集(SIDER)上同样表现稳健,表明其方法学能够适应不同数据源和术语体系,具有较强的实际部署潜力。

六、 研究亮点

  1. 结构感知与数据驱动融合:首次将基于知识图谱的图卷积网络(GCN)结构嵌入学习与面向药物-ADR矩阵的矩阵分解(MF)评分模型有机结合,实现了从生物网络拓扑和关联数据双视角的信息互补。
  2. 创新的动态加权伪标签学习机制:针对传统伪标签方法易受确认偏差影响的痛点,设计了基于预测一致性的动态权重调整策略,为核心创新点,显著提升了伪标签学习的鲁棒性和有效性。
  3. 系统性验证与深入分析:不仅进行了全面的基线对比和消融实验,还深入分析了模型在稀疏数据、不同频率样本下的表现,并辅以案例研究,验证了模型预测结果的生物学合理性和潜在应用价值,论证链条完整而严谨。
  4. 集成策略提升稳定性:通过集成多个基模型的预测结果,有效降低了模型方差,增强了最终预测的稳定性和可靠性,这是模型在多个指标上表现稳健的重要原因之一。

七、 其他有价值内容

论文还讨论了当前研究的局限性,并指出了未来的研究方向,包括:1) 探索更符合现实的“正样本-未标注样本”学习或负采样策略;2) 整合更丰富的特征,如药物分子图、化学指纹或ADR本体结构,以提升对冷启动药物或罕见ADR术语的预测;3) 增强模型的可解释性,开发能够将预测结果回溯到特定蛋白质、分子子结构或关系路径的机制,以辅助生成生物学假设。作者已公开了本研究的数据和源代码(GitHub仓库:https://github.com/adsfadfsf/dwpl-gcnmf),便于其他研究者复现和进一步开发。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com