本研究的主要作者是宋文翔、吴娟和周长达,通讯作者为朱斌教授和唐赟教授。所有作者均来自华东理工大学药学院及相关重点实验室,包括上海光学遗传学技术前沿科学中心、上海新药设计重点实验室、生物反应器工程国家重点实验室、制药过程化学教育部工程研究中心以及药物晶体工程与技术实验室。这项研究于2025年10月16日发表在《Journal of Medicinal Chemistry》期刊上,卷号为68,页码为22831至22844。
这项研究隶属于药物化学与计算化学的交叉领域,具体聚焦于药物共晶的虚拟筛选与设计。研究背景在于,药物-药物共晶(Drug-Drug Cocrystals, DDCs)作为仅由两种活性药物成分(APIs)组成的稳定晶体,不仅能继承传统共晶在改善药物理化性质(如溶解度、稳定性)方面的优势,更有可能带来组分间协同治疗的效果,是一种极具潜力的药物开发策略。然而,面对海量的药物组合可能性,系统且高效的DDCs计算方法尚属空白。现有的基于能量的方法计算复杂,难以规模化;而基于人工智能(AI)的机器学习模型多为二元分类器,需要手动输入候选对,且受限于负样本稀缺和数据不平衡问题,无法解决高通量筛选的核心挑战。因此,本研究旨在开发一种新的计算工具——CCNBR(Cocrystal Network-Based Recommendation),以填补这一空白,实现在特定疾病背景下高效、高通量地发现潜在DDCs。
详细工作流程
整个研究流程分为三个主要部分:模型构建与优化、外部验证评估、以及针对抗高血压药物的实际案例筛选与实验验证。
第一部分:CCNBR模型的构建与优化
首先,研究人员进行了数据收集与预处理。他们从先前的工作(SminBR模型)和Jiang等人的研究中整合了共晶数据。经过严格的标准化、过滤(去除溶剂化物、水合物、三元共晶、含非常见元素的晶体、同分子对以及大环分子)和去重后,最终获得了一个包含6668个共晶、涉及3202个独特分子的高质量数据集。随后,为每个分子生成了扩展三维指纹(Extended 3D Fingerprints, E3FP)来表征其三维构象和化学环境。
其次,构建了三维“子结构-分子”相互作用网络。这是一个复合网络,包含两个子网络: 1. 分子相互作用网络(共晶网络):网络节点代表分子,如果两个分子已知能形成共晶,则它们之间有一条边连接。 2. 分子-子结构二分网络:将每个E3FP指纹的每一位(共1024位)视为一个独特的“子结构”节点。每个分子通过边连接到其指纹中为“1”的位所代表的子结构节点。
通过将这两个网络整合,非共晶实体(Non-cocrystal Entities, NCEs,即网络中尚未报道过能形成共晶的孤立分子)可以借助其子结构与主网络间接连接,从而被纳入预测模型。这个整合网络显著提高了原始共晶网络的连通性和密度。
第三,开发并优化了核心推荐算法。基于“超分子合成子”(supramolecular synthons)是驱动共晶形成的关键相互作用模式这一基本原理,研究团队设计了一种基于“三阶路径”(Third-Order Path)的加权随机游走算法。该算法的核心思想是:在共晶网络中,一个分子倾向于与能提供互补相互作用的分子配对。因此,对于一个目标分子X,频繁出现在从X出发的三阶路径(即长度为3的连接路径)另一端点的分子,被认为是更有可能的共晶形成者。这种三阶路径能够有效捕捉互补的相互作用模式,而二阶路径(直接邻居)通常代表结构相似分子,反而不易形成共晶。
由于分子-分子边(来自实验验证的共晶数据)和分子-子结构边(合成网络)在预测中扮演不同角色,研究人员引入了一个可调权重参数w来平衡两者的贡献:分子-子结构边的权重设为w,分子-分子边的权重设为1/w。通过十折交叉验证和多次重复,他们系统优化了w值。结果显示,当w=0.08时,模型的性能达到最优,受试者工作特征曲线下面积(AUC)高达0.951,这表明模型能非常准确地区分正负样本,且性能优于之前开发的SminBR模型。最优的w值小于1,表明在算法计算中,反映真实共晶形成情况的分子相互作用网络比基于结构的子结构网络更重要。
第二部分:模型的外部验证
为了评估CCNBR在识别已知DDCs方面的能力,研究团队使用了一个外部验证集,该集合包含66个经实验证实的DDCs,涉及58种独特药物分子(其中包括10个对包含NCE的组合)。在验证前,这些已知DDCs对应的边被从分子相互作用网络中移除,以确保评估的公正性。
随后,CCNBR被用来计算这58种药物所有可能配对(共1770对)的相互作用得分并进行排名。结果显示,近一半的已知DDCs(66对中的近50%)排名在前100位,85%的已知DDCs排名在前500位,中位排名为第122位。这意味着,如果仅通过实验盲目筛选这1770对组合,需要海量工作;而借助CCNBR的富集作用,只需重点筛选推荐列表顶部的一小部分,就能高效地发现大部分阳性DDC组合,极大地减少了实验工作量并提高了成功率。分析也指出,对于涉及NCE的DDCs,其排名普遍靠后(均在100名开外),因为NCE仅通过子结构网络连接,得分通常低于网络中高度连接分子的组合。这也揭示了模型当前的一个局限性。
第三部分:抗高血压药物DDCs的案例筛选与实验验证
这是本研究验证模型实用性的核心部分。研究选取了15种常用抗高血压药物,涵盖了β-受体阻滞剂、钙通道阻滞剂、血管紧张素II受体阻滞剂和利尿剂等不同类别。
主要结果
本研究取得了一系列重要结果。在模型构建阶段,成功构建了包含3202个分子和1014个子结构的复合网络,并优化出最佳权重参数w=0.08,使模型预测AUC达到0.951。在外部验证中,模型成功地将大部分已知DDCs富集在推荐列表的前列(中位排名122),证明了其高通量筛选潜力。在案例研究中,模型成功地从105对抗高血压药物组合中,精准地将两个实验证实能形成DDCs的组合(Tel-Hyd和Fur-Tel)预测为前两名,预测与实验高度一致。其中新发现的Fur-Tel共晶,不仅具有互补的利尿和血管紧张素受体阻滞作用机制,而且在体外显著改善了难溶性药物替米沙坦的溶解度,在体内更使替米沙坦的生物利用度提高了数倍,展现了巨大的开发价值。实验还意外发现了一个排名较高的药物盐(Fur-Ate),并通过网络分析解释了其得分较高的原因。这些结果环环相扣:模型的高精度预测(结果1、2)为其在真实场景(结果3)中的应用提供了信心;案例筛选的成功(结果3)直接验证了模型的实用性;而对所发现DDC(Fur-Tel)深入的理化性质和药代动力学研究(结果5、6),则从药学角度确证了该方法的最终价值——不仅能找到共晶,还能找到性质优良、有开发前景的共晶。
结论与价值
本研究的结论是,所开发的CCNBR工具在二元药物-药物共晶的推荐方面表现出高准确性和可靠性。其科学价值在于:1)提出并验证了一种结合网络拓扑与分子结构特征的多目标随机游走网络模型,为共晶发现提供了一种新颖的计算范式;2)该模型不依赖负样本、无需先验专家知识、计算快速且具有较好的可解释性,克服了现有AI方法的一些关键瓶颈。其应用价值在于:为药物共晶,特别是针对复杂疾病的多药治疗DDCs的高效筛选和理性设计提供了强大的计算支持,有望显著加速相关药物的研发进程。研究还将CCNBR封装成了独立的软件,方便其他研究者使用。
研究亮点
本研究的亮点突出体现在以下几个方面:1)方法新颖性:首次将基于三阶路径的加权随机游走算法与“子结构-分子”复合网络相结合,专门用于DDCs的高通量、上下文相关的虚拟筛选。2)预测准确性极佳:在抗高血压药物的实际案例中,仅有的两个阳性DDC结果恰好位列预测榜单前两位,这种高度一致性极具说服力。3)完整的“干湿结合”验证链条:从计算模型开发、外部验证到具体疾病领域的实验筛选、晶体表征、理化性质优化乃至体内药代动力学评价,形成了一个完整、闭环的研究体系,有力地证明了模型从预测到最终产品潜力的全流程价值。4)实用性工具产出:开发了可供下载使用的独立软件CCNBR,促进了方法的传播和应用。
其他有价值内容
研究还坦诚地讨论了当前模型的局限性,包括对网络中NCE分子的推荐性能下降、无法直接判断预测组合是否具有药效学协同作用、以及目前仅限于二元共晶预测(无法预测三元等多元共晶)等。作者也提出了未来的改进方向,例如引入定制化的边权重以改善对NCE的推荐、与现有的药物-药物相互作用模型结合以评估治疗协同性、以及探索超图等算法以扩展至多元共晶的预测。这些讨论体现了研究的严谨性和前瞻性。