分享自:

DynamicBind:结合多项式时间子图模型与AI-HDX用于动态感知药物发现

期刊:Proceedings of SIGIR 2026

学术研究报告:动态感知药物发现新框架——DynamicBind

一、 研究概况

本研究报告旨在介绍一项在计算药物发现领域具有突破性意义的原创性研究。该项研究由南京邮电大学的Junfeng Wu(吴俊峰)、Jing He(何晶)等,以及深圳先进技术研究院的Tianwen Huang(黄天文)、Guangfu Cui(崔广富)等科研人员共同合作完成。该研究成果以题为 “DynamicBind: Synergizing Polynomial-Time Subgraph Models with AI-HDX for Dynamics-Aware Drug Discovery” 的论文形式,计划发表于 SIGIR 2026 国际学术会议(定于2026年7月在澳大利亚墨尔本举行)。目前,文稿仍处于未发表的草案状态。该研究核心提出了一种名为DynamicBind的新型计算框架,旨在克服传统药物虚拟筛选在计算效率与生物真实性方面的双重瓶颈。

二、 学术背景与研究目标

本研究所属的科学领域为计算生物学与人工智能交叉的药物发现。传统的药物发现过程常被比喻为“寻找一把能打开特定锁的钥匙”,但现实的挑战在于蛋白质(锁)并非静态,而是处于持续运动的状态。当前,基于结构的虚拟筛选方法面临两大根本性挑战:计算瓶颈生物瓶颈

  • 计算瓶颈:面对数十亿规模的化合物库,传统的分子对接方法(如AutoDock Vina)需要对每个化合物逐一进行计算,时间复杂度极高,扩展到数十亿规模时耗费巨大计算资源和时间,通常不切实际。
  • 生物瓶颈:绝大多数筛选方法依赖于蛋白质的静态三维结构快照(如来自PDB数据库),忽略了蛋白质动态构象变化对结合的关键影响。虽然分子动力学模拟能够捕捉这种动态,但其计算成本之高使其无法用于大规模筛选。

针对这些问题,近年来出现了一些部分解决方案,例如利用人工智能从序列预测蛋白质动力学的工具(如AI-HDX),以及能够高效搜索结构数据的图算法。然而,将这些技术整合成一个实用、可扩展的筛选管道仍然充满挑战。

基于此,本研究旨在开发一个全新的框架,同时解决计算和生物两大瓶颈。其主要研究目标是:1)利用学习的多项式时间模型替代传统昂贵的穷举搜索,实现超高通量初筛;2)在此基础上,引入对蛋白质动力学的感知,进行生物真实性的过滤和排序,从而构建一个兼具计算高效性和生物合理性的新型药物发现流程。

三、 研究方法与详细流程

DynamicBind框架采用三阶段流水线设计,分为离线模型训练在线筛选两个主要部分。

(一) 离线阶段:构建子图互补模型

首先,研究团队开发并训练了名为子图互补模型的核心模型。这是一个图神经网络,其设计目标是直接从蛋白质-配体局部接触图中预测两者界面互补性。为了使SCM能学习到泛化的互补模式,而非简单记忆PDB库中的常见模式,研究团队设计了一个以子图同构为引擎的主动闭环数据构建系统。

  1. 数据构建与模式空间分析

    • 数据源:从PDB数据库中的蛋白质-配体复合物结构出发。
    • 图构建:为每个复合物构建三种图:蛋白质口袋接触图、配体原子接触图,以及真实的蛋白质-配体界面接触图。
    • 模式提取:对于界面上的每个原子对,从其所在的蛋白质和配体接触图中提取2-3跳邻域子图,形成一个“互补模式对”。
    • 模式聚类:利用子图同构作为相似性度量,对这些模式对进行聚类。这一步骤旨在绘制出互补相互作用的“景观图”,识别出哪些模式是PDB库中常见(密集区域),哪些是罕见或未被充分探索的(稀疏区域)。
  2. 稀疏区域扩展与物理验证

    • 对于稀疏模式,研究团队再次利用子图同构作为一种搜索工具:在PDB数据库和AlphaFold DB中查找具有类似局部蛋白质口袋模式的蛋白质,同时在化合物库中搜索具有类似局部配体模式的分子。将这些结构上可能匹配但未经实验验证的配对进行“计算合成”。
    • 随后,对这些候选配对进行快速的分子对接和短时间的分子动力学模拟。能够形成稳定界面的配对被标记为高价值正样本,而那些虽然几何形状相似但无法稳定结合的配对则被标记为困难负样本。这个过程旨在教会模型区分“形状模仿”与“真实的物理化学兼容性”。
  3. 模型训练

    • SCM本质上是一个基于GNN的跨图链接预测器。它接收一个蛋白质口袋接触图和一个配体原子接触图,使用独立的GNN对其进行编码,然后应用交叉注意力机制来预测完整的界面接触图。
    • 以上步骤形成一个主动学习循环:子图同构搜索 → 模式分析 → 稀疏区域扩展 → 物理验证 → 数据增强 → SCM重新训练。最终,SCM学习到的是广义的互补性,并能以恒定时间为每个配体计算出一个互补性评分。

(二) 在线阶段:三阶段筛选流水线

离线训练好的SCM被部署到一个高度自动化的三阶段筛选流程中。

第一阶段:基于SCM的多项式时间初筛 * 输入:靶点蛋白质结构(转化为口袋接触图)和一个预先索引好的、包含数十亿化合物结构的配体接触图库。 * 过程:利用离线子图同构建立的索引,在线筛选仅涉及高效的矩阵运算和注意力机制。预训练的SCM对靶点与库中每个化合物进行快速评分,评估其界面互补性潜力。 * 产出与耗时:此阶段能在数小时内,将数十亿化合物库缩小至数千个高互补性候选化合物。研究论文中报道的具体案例是,针对SARS-CoV-2 RNA聚合酶靶点,使用SCM在约62小时内从ZINC20库(约10亿化合物)中筛选出排名前1万的候选分子。

第二阶段:基于AI-HDX的动力学可及性过滤 * 目的:静态结构上的良好拟合并不足够,结合位点必须在动力学上是可及的。这一阶段旨在剔除那些可能靶向在天然状态下被埋藏或构象僵化的蛋白质区域的化合物。 * 方法:使用AI-HDX模型预测靶点蛋白质在非结合状态下的氢氘交换率。HDX速率高通常表明区域更动态、溶剂可及性更好;低HDX速率则暗示区域更刚性或被埋藏。 * 过程与结果:对于第一阶段筛选出的每个候选化合物(如上例中的1万个),计算其预测结合位点残基的平均预测HDX值。那些靶向低HDX(预测不可及)区域的化合物被过滤掉。在案例研究中,此步骤耗时约52分钟,将候选池从1万个缩减至1000个。

第三阶段:基于δHDX稳定化评分的对接与排序 * 目的:对剩余的候选化合物进行更精细的评估,量化其结合对蛋白质构象稳定性的影响。 * 方法: * 对剩余候选化合物(如上例中的1000个)进行快速的分子对接,生成结合构象。 * 对于每个对接得到的复合物结构,再次使用AI-HDX模型预测其结合状态下的HDX图谱。 * 计算δHDX稳定化评分(公式为:𝑆δhdx = (1/|ℛ|) Σ (hdx_bound𝑟 − hdx_free𝑟)),其中ℛ为配体5Å范围内的残基。负的𝑆δhdx值表示结合导致了这些残基的HDX速率降低,即构象稳定化,这通常是高亲和力、高特异性结合的标志。 * 过程与结果:根据𝑆δhdx对候选化合物进行排序,生成一个基于物理原理的优先级列表。在案例研究中,此阶段耗时约6小时,从1000个化合物中最终确定排名第一的候选分子DB-001。

四、 主要研究结果

  1. 成功构建了可泛化的SCM模型:研究团队通过独特的主动学习数据构建方法,训练出的SCM模型能够学习超越PDB记忆的广义互补模式,这是实现高效、准确初筛的关键。模型能够进行常数时间的评分,为大规模筛选奠定了基础。
  2. 实现了数量级的计算加速:在针对SARS-CoV-2 RNA聚合酶的案例研究中,DynamicBind全流程(从10亿化合物到产出优先候选分子)仅耗时约69小时(不到3天)。研究团队对比指出,使用传统对接方法(如AutoDock Vina)在相同硬件上完成同等规模的筛选,预计需要约900天。DynamicBind实现了超过300倍的实际加速比。这一加速主要归功于第一阶段SCM多项式时间筛选,它将搜索空间在引入任何基于物理的计算之前就减少了四个数量级。
  3. 发现了具有强稳定化特征的新型候选抑制剂DB-001
    • 筛选结果:DB-001在最终排序中位列第一,其δHDX稳定化评分𝑆δhdx为-0.42,表明其结合对靶点活性位点产生了显著的构象稳定作用。
    • 结构分析:对接构象显示,DB-001与关键催化残基Asp760和Asp761形成氢键,并与邻近残基产生疏水接触,显示出良好的几何匹配。
    • 动力学验证:其靶向的口袋在非结合状态下预测具有高HDX值(> 0.3),验证了该位点在动力学上是可及的,符合第二阶段筛选标准。
  4. 验证了框架的“效率-真实性”协同设计:结果证明,分阶段、专门化的筛选流程是有效的。SCM快速捕获了基本的互补性;AI-HDX过滤有效移除了动力学上不可行的候选物;而δHDX评分则提供了与结合质量和稳定性直接相关的物理量度。这种层级设计避免了将不同目标混入单一嘈杂评分函数的常见缺陷。

五、 研究结论与意义

本研究提出了DynamicBind框架,为计算上可行、动力学感知的药物发现建立了一个新范式。其核心创新在于学习的多项式时间筛选模型与AI预测的蛋白质动力学之间的协同作用

  • 科学价值:该研究首次将图神经网络驱动的子图互补性学习与AI-HDX预测的蛋白质动态信息深度融合,构建了一个层次化的计算筛选理论框架。它展示了如何将NP难问题的搜索转化为通过机器学习模型进行多项式时间评估的可行性路径,为处理超大规模生物分子空间搜索问题提供了新的思路。
  • 应用价值
    • 极大提升筛选效率:使针对数十亿级化合物库的虚拟筛选在几天内完成成为可能,为快速应对新发传染病(如COVID-19)的药物研发提供了强大的计算工具。
    • 提高筛选质量:通过整合蛋白质动态信息,能够更准确地识别出那些不仅在静态结构上匹配,而且在真实生理环境下更可能有效结合的分子,有望提高苗头化合物的命中率和质量。
    • 提供物理可解释性指标:δHDX评分作为一个直接反映构象稳定化的物理量,为候选化合物的优先级排序提供了比传统对接评分更具生物意义和可解释性的依据。

六、 研究亮点

  1. 方法学创新
    • 子图互补模型:创造性地将子图同构的思想用于构建和扩充训练数据,并利用GNN学习广义的分子界面互补模式,是实现高效筛选的核心引擎。
    • 三层级过滤流水线:将几何互补性、动力学可及性和构象稳定化三个不同维度的评估解耦并序列化,实现了计算效率与生物真实性的最优平衡。
    • δHDX作为新型评分函数:首次将AI预测的氢氘交换变化量(δHDX)作为虚拟筛选的最终排序标准,直接关联结合事件与蛋白质构象稳定这一关键物理性质。
  2. 性能突破:在真实案例中展示了从10亿到1的筛选流程在3天内完成,并获得具有强稳定化特征的苗头化合物,验证了框架的端到端效能和巨大加速潜力。
  3. 协同设计理念:研究强调了“学习模型解决效率”与“物理模型保证真实性”的协同设计哲学,为未来计算生物学工具开发提供了重要范本。

七、 其他有价值的展望

研究团队在结论部分提出了明确的未来方向,包括: * 扩展至交叉变异体筛选:使SCM和流水线能够同时处理多个蛋白质变异体,以识别具有广谱潜力的化合物。 * 应用于蛋白质-蛋白质相互作用:将SCM框架拓展至更大的分子相互作用领域。 * 整合实验反馈的主动学习:建立闭环系统,利用湿实验验证结果不断迭代优化SCM模型。 * 云端服务化:将整个管道部署为云服务,以实现针对新兴病原体的实时治疗性发现。

DynamicBind研究代表了一项将前沿人工智能算法与生物物理洞察力紧密结合的典范工作,有望显著改变计算药物发现的实践模式。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com