分享自:

基于多任务学习的全图方法预测协同药物组合

期刊:BioinformaticsDOI:10.1093/bioinformatics/btad351

学术研究报告:基于完整图的多任务学习方法预测抗癌药物协同组合

作者及机构
本研究的通讯作者为同济大学软件工程学院的Qin Liu和Qi Liu,合作单位包括上海东方医院干细胞治疗转化医学中心、同济大学生命科学与技术学院生物信息学系,以及天士力生物医药股份有限公司药物发现与开发部。研究论文发表于*Bioinformatics*期刊,2023年6月正式出版(DOI: 10.1093/bioinformatics/btad351)。

学术背景
抗癌药物联合疗法(drug combination therapy)因其可同时抑制多条致癌通路、延缓耐药性并降低毒性,已成为肿瘤治疗的基石。然而,传统实验方法(如高通量筛选)成本高昂且无法覆盖所有药物组合空间,而现有计算模型(如基于深度学习的方法)存在两大瓶颈:
1. 输入顺序依赖性:多数模型对药物输入顺序敏感,导致预测结果不稳定;
2. 泛化能力不足:协同药物组合数据稀缺且分布不均衡,限制了模型对新药物、新细胞系的预测能力。

针对这些问题,本研究提出CGMS(Complete Graph-based approach with Multi-task learning for Synergy prediction),通过构建异质完整图(heterogeneous complete graph)结合多任务学习,实现稳定且高泛化能力的药物协同预测。

研究流程与方法
1. 数据准备与特征工程
- 数据集:基于O’Neil等(2016)发布的药物组合筛选数据,构建包含22,737个样本的协同数据集(以Loewe协同分数为标签)和11,766个样本的敏感性数据集(以相对抑制值RI为标签)。
- 药物特征:从DrugComb数据库提取3,118种药物的SMILES表达式,通过RDKit工具生成1,024维摩根指纹(Morgan fingerprint)和189维分子描述符,经自编码器压缩至256维。
- 细胞系特征:基于CCLE(Cancer Cell Line Encyclopedia)的RNA-seq数据,筛选5,001个高方差基因表达值,归一化后编码为256维向量。

  1. 异质完整图建模

    • 图结构设计:将药物组合(两药物节点)与细胞系节点构建为异质完整图,包含四种元路径(meta-path):药物-细胞系、细胞系-药物(模拟单药疗效)、药物-药物(反映药物间相互作用)及自循环(保留节点自身信息)。
    • 全图嵌入生成:采用三层异质图注意力网络(HAN)生成顺序无关的全图嵌入(whole-graph embedding)。HAN通过节点级注意力(聚合同一元路径下邻居信息)和语义级注意力(加权不同元路径贡献)实现信息融合,并引入多头注意力机制增强稳定性。
  2. 多任务学习框架

    • 任务设计:同步训练协同分数预测(主任务)和药物敏感性预测(辅助任务),两者均采用均方误差(MSE)损失函数。
    • 训练策略:采用改进的联合训练策略,交替采样两类任务数据,仅协同任务反向传播梯度,避免数据量不平衡的影响。
  3. 模型评估与对比

    • 基线模型:与六种前沿方法对比,包括EC-DFR(集成方法)、DeepSynergy(MLP基础)、AuDNNsynergy(自编码器优化)、ProDeepSyn和DeepDDS(图卷积网络基础)、TransSynergy(Transformer基础)。
    • 评估场景:在“留出药物组合”(leave-drug combination-out)、“留出细胞系”(leave-cell line-out)和“留出药物”(leave-drug-out)三种场景下进行5折交叉验证,以MSE、RMSE和Pearson相关系数(PCC)为指标。

主要结果
1. 性能优势
- CGMS在“留出药物组合”场景中MSE为208.38(比第二名ProDeepSyn降低9.2%),PCC达0.78;在更具挑战性的“留出细胞系”和“留出药物”场景中仍保持最低误差(补充表S1-S2)。
- 顺序无关性验证:通过对比实验(如CGMS与依赖节点拼接的变体CGMS-ord),证明全图嵌入可消除输入顺序影响(图3)。数据增强虽能缓解顺序依赖性,但无法根除预测差异。

  1. 全图嵌入的判别力

    • t-SNE可视化显示,高协同分数(>30)与负协同样本在嵌入空间中被清晰分离(图4),表明模型能有效捕捉药物组合与细胞线的交互特征。
  2. 注意力机制的可解释性

    • 通过掩码实验发现,遮挡高注意力权重区域会导致MSE显著上升(图5),证明模型能自适应聚焦于关键特征(如特定药物-细胞系互作)。
  3. 多任务学习的贡献

    • 消融实验显示,多任务训练使CGMS在协同预测任务上MSE降低4.8%(对比单任务变体CGMSyn),敏感性预测任务MSE降低11.7%(对比CGMSen),表明多任务学习提升了泛化能力(表2)。

结论与价值
CGMS通过创新性地将药物组合建模为异质完整图,并结合多任务学习,解决了现有深度学习模型的顺序依赖性和泛化能力不足问题。其科学价值在于:
1. 方法学创新:首次将完整图结构引入药物协同预测,提供了一种可解释的图注意力框架;
2. 应用潜力:预测结果可为实验预筛选提供优先测试组合,降低研发成本。

研究亮点
- 全图嵌入技术:通过HAN生成顺序无关的特征表示,克服了传统深度模型的输入顺序敏感性。
- 多任务协同训练:利用药物敏感性数据增强小样本协同任务的泛化能力。
- 可解释性设计:注意力权重的可视化分析为生物学家提供了决策依据。

未来方向
作者指出,当前药物和细胞系特征构建仍依赖常规方法,未来可整合更多异构数据(如蛋白质互作网络)以进一步提升预测精度。代码已开源(GitHub: https://github.com/tojsse-idata/cgms),推动领域内方法复用与改进。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com