基于多模态融合深度学习框架DTLCDR的癌症药物反应预测研究
一、 研究作者、机构与发表信息 本研究由Jie Yu、Cheng Shi、Yiran Zhou、Ningfeng Liu、Xiaolin Zong、Zhenming Liu 和 Liangren Zhang 共同完成。主要作者单位是北京大学药学院天然药物及仿生药物国家重点实验室。该研究于2025年4月21日在线发表于学术期刊 Journal of Pharmaceutical Analysis。
二、 学术背景与研究目的 本研究属于计算生物学、生物信息学与人工智能在精准医疗领域的交叉学科研究,具体聚焦于癌症药物反应预测。精准医疗旨在为每位患者找到最合适的疗法,这在癌症治疗中至关重要。然而,由于肿瘤异质性,相同癌症类型的患者对同一治疗可能产生不同反应。准确预测患者对药物的反应是个重大挑战。虽然人工智能已被广泛用于预测癌症药物反应,但现有方法存在两大主要局限:第一,在临床前细胞系数据上训练的模型,对于训练集中未见过的新药分子,预测泛化能力普遍较差。第二,在从临床前数据向临床患者数据迁移时,现有模型通常只能预测那些在细胞系数据集中出现过的药物,无法预测全新的药物。
为解决这些挑战,研究团队提出了一种名为DTLCDR的新型多模态融合深度学习框架。其核心策略有两个:一是通过整合药物靶点信息来增强药物特征的表征能力,因为具有相似靶点的药物往往表现出相似的效应;二是通过整合一个在单细胞数据上预训练的语言模型,来增强细胞系基因表达特征的表征,从而提供更通用的基因组学知识。该研究旨在开发一个能够同时准确预测临床前细胞系药物反应,并能有效迁移到临床数据、预测新药反应的强大工具。
三、 详细研究流程与方法 本研究流程主要包含三大组成部分:构建药物-靶点相互作用预测模型、构建用于细胞系药物反应预测的多模态融合模型,以及将该模型迁移应用于临床数据预测。
1. 构建药物-靶点相互作用预测模型 * 目的:为后续的药物反应预测模型生成完整的、预测性的药物靶点活性谱,作为关键的药物特征输入。 * 方法:研究团队首先从公共数据库收集了978个癌症相关蛋白靶点的生物活性数据,构建了一个包含近百万个药物-蛋白质对的数据集。随后,他们开发了一个名为GCADTI的新型深度学习模型。该模型使用图卷积网络处理药物的二维分子图结构,使用卷积神经网络处理蛋白质的一维氨基酸序列。通过一个注意力模块融合药物和蛋白质的特征,最终预测两者之间是否存在相互作用。模型被构建为一个二分类问题,并使用交叉熵损失函数进行训练。为了评估模型的泛化能力,研究设置了四种数据划分场景:常规划分、药物冷启动、靶点冷启动以及药物与靶点双重冷启动。
2. 构建DTLCDR模型用于细胞系药物反应预测 * 目的:整合多源异构数据,构建一个能够高精度预测细胞系药物敏感性,并对新药具有良好泛化能力的模型。 * 模型架构与数据:DTLCDR是一个多模态融合模型,其输入特征包括: * 药物特征:1) 化学描述符:通过多层感知机提取。2) 分子图结构:使用图同构网络提取。3) 预测的靶点活性谱:使用上一步训练好的GCADTI模型,为每个药物预测其对810个癌症相关靶点的活性值,形成一个810维的特征向量。 * 细胞系特征:1) 基因表达谱:使用多层感知机提取。2) 预训练的单细胞语言模型特征:使用一个名为scBERT的、在数百万单细胞RNA测序数据上预训练的Transformer模型,经过微调后用于提取细胞系的基因表达特征,该特征蕴含了从大规模单细胞数据中学到的通用基因表达模式和基因间相互作用知识。 * 所有提取的特征被拼接后,输入到一个全连接块中,以回归任务(预测IC50值的对数)的形式预测药物反应,使用均方误差作为损失函数。 * 数据集:主要使用GDSC2数据库,包含175种药物、800个细胞系,共计117,665个药物-细胞系对。同时,也使用了GDSC1和CTRPv2数据库进行额外验证。 * 评估策略:为了全面评估模型性能,特别是泛化能力,研究设置了三种数据划分场景:常规划分、细胞系冷启动和药物冷启动。后者是评估模型预测新药能力的关键。
3. 迁移至临床数据预测 * 目的:将基于细胞系数据训练的DTLCDR模型,适配应用于临床患者数据,预测患者对药物的反应。 * 方法:研究团队引入了条件对抗神经网络来对齐细胞系(源域)和临床患者(目标域)基因组数据的分布差异。他们将回归模型调整为分类模型(将药物反应分为响应者与非响应者),构建了DTLACDR模型。该模型在细胞系数据上进行训练,然后在两个独立的临床数据集上进行测试:PDTC和TCGA。特别地,在PDTC数据集中,药物被分为“与GDSC共享”和“与GDSC不共享”两组,以测试模型预测训练集中未出现药物的能力。
四、 主要研究结果 1. GCADTI模型评估结果 GCADTI在四种数据划分场景下均优于其他先进的基线模型。特别是在与后续任务最相关的“药物冷启动”场景下,其AUROC达到0.8544,AUPRC达到0.9538。模型对大多数蛋白靶点(包括样本量较少的靶点)都表现出令人满意的预测准确性和泛化能力。最终筛选出预测性能最佳的810个靶点用于构建DTLCDR的药物靶点特征,确保了输入特征的可靠性。
2. DTLCDR模型在细胞系数据上的评估结果 * 对比实验:在GDSC2数据集上,DTLCDR在“常规划分”和“细胞系冷启动”场景下与基线模型性能相当或略优。然而,在最具挑战性的“药物冷启动”场景下,DTLCDR展现出显著优势,其皮尔逊相关系数、斯皮尔曼相关系数和R2分数均显著高于所有基线模型,且标准差更低,表明其预测新药反应时具有更优的泛化能力和稳定性。 * 消融实验:通过移除模型的不同组件,验证了各模块的贡献。关键发现包括: * 移除靶点信息模块导致性能下降最大,表明靶点信息对于预测新药反应至关重要,其贡献超过了药物结构信息和化学描述符。这证实了靶点信息能捕捉超越分子结构的生物机制相似性。 * 移除预训练单细胞语言模型模块也导致性能下降,表明该模块通过引入大规模单细胞数据中的通用知识,有效提升了细胞系表征能力。 * 药物特征的整体贡献大于细胞系特征。 * 在其他数据库上的验证:在GDSC1和CTRPv2数据集上的“药物冷启动”测试进一步证实,整合了靶点信息的DTLCDR变体在大多数细胞系上的预测性能优于仅依赖药物结构信息的变体,再次强调了靶点信息的有效性。
3. 药物重定位实验验证 为了验证DTLCDR在真实场景中的应用潜力,研究团队对一个包含19,729个已知生物活性化合物的库进行了虚拟筛选,针对四种癌症细胞系(MCF-7, A-549, NCI-H520, HCC95)预测其抗癌活性。根据预测排名购买了42个化合物进行体外细胞活力实验。初步筛选和剂量反应实验最终确定了5个化合物在微摩尔级别对测试的癌细胞系具有抑制活性。这五个化合物原本已知用于治疗骨关节炎、疟疾、血栓或抑制炎症反应,本研究首次发现了它们的潜在抗癌活性。实验取得了较高的命中率,证明了DTLCDR在发现和重定位抗癌活性化合物方面的实用价值。
4. DTLACDR在临床数据上的评估结果 * PDTC数据集:在与GDSC共享的药物上,DTLACDR的性能在18个对比模型中排名前列,优于大多数基线模型。更重要的是,对于GDSC中未包含的49种药物,DTLACDR依然能进行预测,其平均AUROC为0.549,平均AUPRC为0.656,表明模型对非共享药物也具有一定的预测能力,突破了传统单药模型只能预测训练集中存在药物的限制。 * TCGA数据集:在TCGA的5种药物上,DTLACDR的预测性能(AUROC和AUPRC)在所有或大多数基线模型中表现最佳或次佳,特别是在AUPRC上显著优于其他模型,显示出模型在识别临床阳性样本(响应者)方面的潜力。
五、 研究结论与价值 本研究成功开发了一个名为DTLCDR的新型多模态融合深度学习框架,用于预测临床前和临床癌症药物反应。该模型通过整合预测的药物靶点谱和预训练的单细胞语言模型知识,显著提升了对新药分子的预测泛化能力。全面的评估表明,DTLCDR在预测未见药物方面优于现有先进方法,其有效性通过消融研究、多数据库验证和体外实验得到了证实。更重要的是,通过领域自适应方法迁移得到的DTLACDR模型,在临床数据集上展现了良好的性能,并且能够预测训练细胞系数据中未出现过的药物,这是对现有临床预测模型的一个重要突破。
该研究的科学价值在于提出并验证了利用靶点信息和通用单细胞知识来增强药物反应预测模型泛化能力的新策略。其应用价值在于为个性化药物发现和药物重定位提供了一个有前景的计算工具,能够加速抗癌候选化合物的筛选,并有望辅助临床治疗决策。
六、 研究亮点 1. 创新性的模型架构:首次将预测性的、完整的药物靶点活性谱与预训练的单细胞语言模型特征同时整合到一个多模态深度学习框架中,用于癌症药物反应预测。 2. 卓越的泛化能力:着重解决现有模型在“药物冷启动”场景下的性能瓶颈,通过引入靶点信息这一关键生物机制特征,显著提升了对新结构分子的预测准确性。 3. 突破性的临床迁移能力:开发的DTLACDR模型采用多药模式,结合对抗性领域自适应,成功实现了对临床数据中“非共享药物”(即训练集中未出现药物)的反应预测,突破了传统单药临床预测模型的局限。 4. 扎实的实验验证:不仅进行了全面的计算评估和消融分析,还通过体外细胞实验验证了模型在真实药物发现场景中的实用性,从虚拟筛选到实验验证形成了完整闭环,增强了研究的说服力。 5. 系统的评估流程:研究设计严谨,在药物-靶点预测和药物反应预测两个层面都设置了严格的冷启动评估场景,并使用了多个独立数据库进行交叉验证,结论可靠。