学术研究报告:基于完整图的多任务学习方法预测抗癌药物协同组合
作者及机构
本研究的通讯作者为同济大学软件工程学院的Qin Liu和Qi Liu,合作单位包括上海东方医院干细胞治疗转化医学中心、同济大学生命科学与技术学院生物信息学系,以及天士力生物医药股份有限公司药物发现与开发部。研究论文发表于*Bioinformatics*期刊,2023年6月正式出版(DOI: 10.1093/bioinformatics/btad351)。
学术背景
抗癌药物联合疗法(drug combination therapy)因其可同时抑制多条致癌通路、延缓耐药性并降低毒性,已成为肿瘤治疗的基石。然而,传统实验方法(如高通量筛选)成本高昂且无法覆盖所有药物组合空间,而现有计算模型(如基于深度学习的方法)存在两大瓶颈:
1. 输入顺序依赖性:多数模型对药物输入顺序敏感,导致预测结果不稳定;
2. 泛化能力不足:协同药物组合数据稀缺且分布不均衡,限制了模型对新药物、新细胞系的预测能力。
针对这些问题,本研究提出CGMS(Complete Graph-based approach with Multi-task learning for Synergy prediction),通过构建异质完整图(heterogeneous complete graph)结合多任务学习,实现稳定且高泛化能力的药物协同预测。
研究流程与方法
1. 数据准备与特征工程
- 数据集:基于O’Neil等(2016)发布的药物组合筛选数据,构建包含22,737个样本的协同数据集(以Loewe协同分数为标签)和11,766个样本的敏感性数据集(以相对抑制值RI为标签)。
- 药物特征:从DrugComb数据库提取3,118种药物的SMILES表达式,通过RDKit工具生成1,024维摩根指纹(Morgan fingerprint)和189维分子描述符,经自编码器压缩至256维。
- 细胞系特征:基于CCLE(Cancer Cell Line Encyclopedia)的RNA-seq数据,筛选5,001个高方差基因表达值,归一化后编码为256维向量。
异质完整图建模
多任务学习框架
模型评估与对比
主要结果
1. 性能优势
- CGMS在“留出药物组合”场景中MSE为208.38(比第二名ProDeepSyn降低9.2%),PCC达0.78;在更具挑战性的“留出细胞系”和“留出药物”场景中仍保持最低误差(补充表S1-S2)。
- 顺序无关性验证:通过对比实验(如CGMS与依赖节点拼接的变体CGMS-ord),证明全图嵌入可消除输入顺序影响(图3)。数据增强虽能缓解顺序依赖性,但无法根除预测差异。
全图嵌入的判别力
注意力机制的可解释性
多任务学习的贡献
结论与价值
CGMS通过创新性地将药物组合建模为异质完整图,并结合多任务学习,解决了现有深度学习模型的顺序依赖性和泛化能力不足问题。其科学价值在于:
1. 方法学创新:首次将完整图结构引入药物协同预测,提供了一种可解释的图注意力框架;
2. 应用潜力:预测结果可为实验预筛选提供优先测试组合,降低研发成本。
研究亮点
- 全图嵌入技术:通过HAN生成顺序无关的特征表示,克服了传统深度模型的输入顺序敏感性。
- 多任务协同训练:利用药物敏感性数据增强小样本协同任务的泛化能力。
- 可解释性设计:注意力权重的可视化分析为生物学家提供了决策依据。
未来方向
作者指出,当前药物和细胞系特征构建仍依赖常规方法,未来可整合更多异构数据(如蛋白质互作网络)以进一步提升预测精度。代码已开源(GitHub: https://github.com/tojsse-idata/cgms),推动领域内方法复用与改进。