一、 研究概况
本研究报告旨在介绍一项在计算药物发现领域具有突破性意义的原创性研究。该项研究由南京邮电大学的Junfeng Wu(吴俊峰)、Jing He(何晶)等,以及深圳先进技术研究院的Tianwen Huang(黄天文)、Guangfu Cui(崔广富)等科研人员共同合作完成。该研究成果以题为 “DynamicBind: Synergizing Polynomial-Time Subgraph Models with AI-HDX for Dynamics-Aware Drug Discovery” 的论文形式,计划发表于 SIGIR 2026 国际学术会议(定于2026年7月在澳大利亚墨尔本举行)。目前,文稿仍处于未发表的草案状态。该研究核心提出了一种名为DynamicBind的新型计算框架,旨在克服传统药物虚拟筛选在计算效率与生物真实性方面的双重瓶颈。
二、 学术背景与研究目标
本研究所属的科学领域为计算生物学与人工智能交叉的药物发现。传统的药物发现过程常被比喻为“寻找一把能打开特定锁的钥匙”,但现实的挑战在于蛋白质(锁)并非静态,而是处于持续运动的状态。当前,基于结构的虚拟筛选方法面临两大根本性挑战:计算瓶颈 与 生物瓶颈。
针对这些问题,近年来出现了一些部分解决方案,例如利用人工智能从序列预测蛋白质动力学的工具(如AI-HDX),以及能够高效搜索结构数据的图算法。然而,将这些技术整合成一个实用、可扩展的筛选管道仍然充满挑战。
基于此,本研究旨在开发一个全新的框架,同时解决计算和生物两大瓶颈。其主要研究目标是:1)利用学习的多项式时间模型替代传统昂贵的穷举搜索,实现超高通量初筛;2)在此基础上,引入对蛋白质动力学的感知,进行生物真实性的过滤和排序,从而构建一个兼具计算高效性和生物合理性的新型药物发现流程。
三、 研究方法与详细流程
DynamicBind框架采用三阶段流水线设计,分为离线模型训练和在线筛选两个主要部分。
(一) 离线阶段:构建子图互补模型
首先,研究团队开发并训练了名为子图互补模型的核心模型。这是一个图神经网络,其设计目标是直接从蛋白质-配体局部接触图中预测两者界面互补性。为了使SCM能学习到泛化的互补模式,而非简单记忆PDB库中的常见模式,研究团队设计了一个以子图同构为引擎的主动闭环数据构建系统。
数据构建与模式空间分析:
稀疏区域扩展与物理验证:
模型训练:
(二) 在线阶段:三阶段筛选流水线
离线训练好的SCM被部署到一个高度自动化的三阶段筛选流程中。
第一阶段:基于SCM的多项式时间初筛 * 输入:靶点蛋白质结构(转化为口袋接触图)和一个预先索引好的、包含数十亿化合物结构的配体接触图库。 * 过程:利用离线子图同构建立的索引,在线筛选仅涉及高效的矩阵运算和注意力机制。预训练的SCM对靶点与库中每个化合物进行快速评分,评估其界面互补性潜力。 * 产出与耗时:此阶段能在数小时内,将数十亿化合物库缩小至数千个高互补性候选化合物。研究论文中报道的具体案例是,针对SARS-CoV-2 RNA聚合酶靶点,使用SCM在约62小时内从ZINC20库(约10亿化合物)中筛选出排名前1万的候选分子。
第二阶段:基于AI-HDX的动力学可及性过滤 * 目的:静态结构上的良好拟合并不足够,结合位点必须在动力学上是可及的。这一阶段旨在剔除那些可能靶向在天然状态下被埋藏或构象僵化的蛋白质区域的化合物。 * 方法:使用AI-HDX模型预测靶点蛋白质在非结合状态下的氢氘交换率。HDX速率高通常表明区域更动态、溶剂可及性更好;低HDX速率则暗示区域更刚性或被埋藏。 * 过程与结果:对于第一阶段筛选出的每个候选化合物(如上例中的1万个),计算其预测结合位点残基的平均预测HDX值。那些靶向低HDX(预测不可及)区域的化合物被过滤掉。在案例研究中,此步骤耗时约52分钟,将候选池从1万个缩减至1000个。
第三阶段:基于δHDX稳定化评分的对接与排序 * 目的:对剩余的候选化合物进行更精细的评估,量化其结合对蛋白质构象稳定性的影响。 * 方法: * 对剩余候选化合物(如上例中的1000个)进行快速的分子对接,生成结合构象。 * 对于每个对接得到的复合物结构,再次使用AI-HDX模型预测其结合状态下的HDX图谱。 * 计算δHDX稳定化评分(公式为:𝑆δhdx = (1/|ℛ|) Σ (hdx_bound𝑟 − hdx_free𝑟)),其中ℛ为配体5Å范围内的残基。负的𝑆δhdx值表示结合导致了这些残基的HDX速率降低,即构象稳定化,这通常是高亲和力、高特异性结合的标志。 * 过程与结果:根据𝑆δhdx对候选化合物进行排序,生成一个基于物理原理的优先级列表。在案例研究中,此阶段耗时约6小时,从1000个化合物中最终确定排名第一的候选分子DB-001。
四、 主要研究结果
五、 研究结论与意义
本研究提出了DynamicBind框架,为计算上可行、动力学感知的药物发现建立了一个新范式。其核心创新在于学习的多项式时间筛选模型与AI预测的蛋白质动力学之间的协同作用。
六、 研究亮点
七、 其他有价值的展望
研究团队在结论部分提出了明确的未来方向,包括: * 扩展至交叉变异体筛选:使SCM和流水线能够同时处理多个蛋白质变异体,以识别具有广谱潜力的化合物。 * 应用于蛋白质-蛋白质相互作用:将SCM框架拓展至更大的分子相互作用领域。 * 整合实验反馈的主动学习:建立闭环系统,利用湿实验验证结果不断迭代优化SCM模型。 * 云端服务化:将整个管道部署为云服务,以实现针对新兴病原体的实时治疗性发现。
DynamicBind研究代表了一项将前沿人工智能算法与生物物理洞察力紧密结合的典范工作,有望显著改变计算药物发现的实践模式。