分享自:

基于生成预训练与测试时计算的原子级别蛋白质结合剂设计扩展

期刊:ICLR

这是一篇于ICLR 2026会议上发表的学术论文。以下是为您撰写的学术报告:

报告题目:Proteı́na-Complexa:通过生成式预训练与测试时计算扩展实现原子级蛋白质结合剂设计的新突破

一、 主要作者、研究机构与发表信息

本项研究由来自NVIDIA、牛津大学、蒙特利尔大学Mila-Quebec AI研究所、首尔国立大学等多个顶尖机构的科学家团队合作完成。核心贡献者包括Kieran Didi、Zuobai Zhang、Guoqing Zhou、Danny Reidenbach、Zhonglin Cao和Sooyoung Cha等人,指导作者为Emine Kucukbenli、Arash Vahdat,项目负责人为Karsten Kreis。该研究已以“Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute”为题,在“International Conference on Learning Representations (ICLR) 2026”上发表。

二、 学术背景与研究目标

主要科学领域: 本研究属于计算生物学、蛋白质设计与人工智能的交叉领域,具体聚焦于蛋白质-蛋白质/小分子相互作用建模从头设计(*de novo design*)。

研究背景与动因: 设计能够特异性地与靶标蛋白或小分子结合的“粘合剂”蛋白是药物发现(如抗体、酶抑制剂设计)和生物技术(如酶工程)的核心挑战。传统的计算方法通常依赖于两种相互对立的范式: 1. 生成式方法(如RFDiffusion):通过在大规模已知复合物结构数据上训练生成模型(如扩散模型、流模型),使其学会在给定新靶标时生成候选结合剂结构。这类似于训练一个“知识库”。 2. 幻想(Hallucination)方法(如BindCraft):不训练专门的生成器,而是直接利用AlphaFold等结构预测模型的置信度/对齐得分作为反馈,通过梯度优化等方法,从随机序列开始“幻想”出能与靶标高置信度结合的结构。这更像是“无中生有”的反复试错与优化。

研究团队认为,这种割裂的局面与现代大语言模型和图像生成领域的发展趋势不符。在这些领域,强大的预训练基础模型推理时(Inference-Time)计算扩展(如思维链、自我完善)通常是结合在单一框架中的。当前蛋白质设计方法要么是纯训练时优化(生成式),要么是纯推理时优化而无生成先验(幻想式),形成了一个“错误的二分法”。

研究目标: 因此,本研究旨在打破这一界限,提出一个统一的框架:结合一个强大的、基于原子级结构数据预训练的基础生成模型,并利用结构预测模型提供的反馈,在推理时进行高效搜索和优化。研究者期望借此融合两种范式的优点:基础模型提供高质量的结构先验知识,加快搜索起点和效率;推理时优化则能利用外部知识(结构预测评分)在生成先验空间内进行精调,实现更高效的“定向设计”。

三、 详细研究流程与方法

本研究流程复杂而系统,可分为五大核心步骤:

步骤一:构建大规模合成复合物数据集TeddyMer 研究问题: 训练强大的基础生成模型需要海量的蛋白质复合物结构数据。然而,实验解析的蛋白质复合物结构(如PDB)数量有限,无法满足大规模预训练的需求。 解决方案: 研究团队巧妙地利用了AlphaFold数据库(AFDB)中预测的数百万个单体(单链)蛋白结构。他们注意到,大多数AFDB蛋白是多结构域蛋白。不同结构域之间的相互作用在物理本质上与不同蛋白质链之间的相互作用相似。因此,他们利用Encyclopedia of Domains(TED)数据库提供的结构域注释,将AFDB中的多域蛋白“拆解”成单个结构域,并将彼此靠近的结构域组合成人工合成的二聚体(即假想的“结合剂-靶标”对)。 数据处理: 从AFDB50(聚类版本)中选取有TED注释的4700万个样本,进行结构域拆分和邻近过滤,得到了1000万个候选二聚体。最终,通过聚类和更严格的接口质量过滤(接口pLDDT > 70,接口pAE < 10,接口长度 > 10),获得了包含350万个簇代表样本的最终数据集,命名为 TeddyMer。分析表明,TeddyMer中的接口在几何和氢键模式上与真实PDB复合物非常相似。 意义: TeddyMer为模型训练提供了一个比实验PDB数据规模大得多的合成复合物数据源,解决了该领域的数据瓶颈问题。

步骤二:开发Proteı́na-Complexa基础生成模型 模型架构: Proteı́na-Complexa(简称Complexa)基于其团队此前开发的LA-Proteı́na架构。LA-Proteı́na是一个用于原子级全蛋白生成的部分隐变量流匹配模型。其核心思想是,使用变分自编码器(VAE),其中编码器将蛋白的原子坐标(除α碳外的原子)和氨基酸序列编码为连续的隐变量(z),而解码器则从α碳坐标(xCα)和隐变量z重建出所有原子。 关键创新1:潜在的靶标条件化机制。为了适应结合剂设计,研究者在LA-Proteı́na的流匹配生成器(即“去噪器”)上进行修改,使其能够条件化于靶标结构。具体而言,将靶标结构的原子坐标和氨基酸类型编码为特征,与正在生成的结合剂的α碳坐标和隐变量z序列拼接,共同输入到一个高效Transformer网络中。同时,还引入了“热点”残基标记,引导模型在靶标接口附近生成结合剂。重要的是,自编码器保持不变,因为它只需要编码和解码单体蛋白(即结合剂本身),这使得模型设计更加简洁和通用。 关键创新2:平移噪声。在训练流匹配模型时,研究者在α碳坐标的线性插值路径中增加了全局随机平移噪声。这迫使模型在整个生成过程中都必须精细地学习结合剂相对于靶标的全局精确定位。没有这一项,模型在早期生成低频全局位置信息后就难以优化,导致结合剂放置不准。 训练策略: 采用分阶段训练策略,模拟了大模型预训练与对齐的过程。 * 第一阶段: 在AFDB单体蛋白上预训练自编码器和流匹配模型,让模型学会生成任意蛋白质结构的基本能力。 * 第二阶段: 在TeddyMer合成二聚体和高质量PDB复合物数据上,训练流匹配模型的条件生成能力,使其学会根据靶标生成结合剂。 * 第三阶段(针对小分子): 在PLinder等蛋白质-配体数据集上,使用LoRA等技术对模型进行微调,使其能处理小分子靶标。小分子使用原子类型、坐标、电荷和图拉普拉斯位置编码进行特征化。

步骤三:定义和计算计算机模拟成功指标 为了评估和优化生成的结合剂,研究者定义了严格的计算机模拟(In-silico)成功标准,这些标准也作为推理时优化的“奖励”(Reward)函数。 * 蛋白质靶标: 使用AlphaFold2-multimer重新折叠生成的结合剂序列与靶标序列,要求满足:整体pLDDT > 90,接口pAE < 7.0,且结合剂结构(相对于生成的结构)RMSD < 1.5 Å。 * 小分子靶标: 使用RosettaFold-3(RF3)进行评估,要求:最小化接口pAE < 2,结合剂RMSD < 2 Å,配体RMSD < 5 Å。 * 接口氢键能量: 此外,研究者还计算了折叠后结构的接口氢键能量(使用Rosetta方法),作为可优化的物理化学指标。

步骤四:推理时计算扩展与优化算法 这是本研究的核心创新之一,旨在将生成式先验与外部目标导向的搜索结合起来。研究者借鉴了扩散/流模型领域的测试时扩展算法,并首次系统性地应用于蛋白质设计。 1. 最佳N采样(Best-of-N Sampling): 最简单的方法,增加采样数N,从中选取成功率最高的样本。 2. 束搜索(Beam Search): 维护一个大小为N的“束”(候选部分去噪状态)。每一步,从每个束元素分支生成L个新的随机去噪轨迹,向前运行几步得到新候选。将这些候选完全解码、折叠并计算奖励(如接口pAE),然后选择奖励最高的N个候选作为新的束。这一过程持续到生成完全去噪的样本。图1展示了此流程。 3. 费曼-卡茨引导(Feynman-Kac Steering): 与束搜索类似,但使用重要性采样从候选池中根据奖励的指数权重进行重采样,而非简单选取前N个。 4. 蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS): 将迭代去噪过程视为一棵树进行搜索。利用上置信界(UCT)公式平衡探索(探索新路径)与利用(利用高奖励路径),在树的连续状态空间中寻找最优路径。 5. 生成后幻想(Generate & Hallucinate): 一个混合策略:先用Complexa基础模型生成一个初始结合剂,然后以此为起点,运行如BindCraft这样的传统幻想方法进行序列精修。这可以加速幻想方法的收敛。

步骤五:全面的性能评估与消融实验 研究者在多个任务和基准上对Complexa进行了广泛评估,并与当前公开的主流方法进行对比。 * 基准方法: 生成式方法包括RFDiffusion、Protpardelle-1c、APM;幻想式方法包括BindCraft、BoltzDesign、AlphaDesign。 * 评估指标: 不仅报告成功率,更强调独特成功数(聚类后统计,避免重复),同时考虑生成速度、新颖性(与PDB的相似度)和计算成本。

四、 主要研究结果

结果一:基础生成模型的卓越性能蛋白质靶标基准测试中,Complexa的基础模型(仅采样,无推理时优化)在无需任何序列重设计(如使用ProteinMPNN)的情况下,其自身生成的序列就取得了压倒性优势。平均独特成功数(9.10)远高于RFDiffusion(需重设计,4.68)和APM(3.15)。它在14个靶标中的14个上都取得了最佳或并列最佳性能。其采样速度(15.6秒/样本)也显著快于RFDiffusion和APM。 在小分子靶标基准测试中,Complexa同样大幅超越了RFDiffusion-allatom,在四个分子(SAM、OQO、FAD、IAI)上取得了更高的独特成功数,且速度更快。 结论: Complexa的基础生成模型本身已是目前性能最强的原子级结合剂生成器,无需额外的序列重设计步骤,简化了设计流程。

结果二:推理时优化显著提升性能,超越纯幻想方法 研究的关键验证是:结合了生成先验的推理时优化,是否比纯幻想方法更高效? * 不同难度靶标对比: 在12个“简单”靶标上,简单的“最佳N采样”在同等GPU计算时数下就超越了BindCraft和BoltzDesign。在7个“困难”靶标(如多链靶标VEGFA)上,则需要更高级的搜索算法(束搜索、FKS、MCTS),这些方法显著且一致地优于幻想基线。图7和图8清晰地展示了这种性能差距。 * 对幻想方法的加速: “生成后幻想”策略在简单靶标上能加速BindCraft的优化,但在困难靶标上效果有限。 结论: 研究证实了“生成先验 + 推理时搜索”范式的巨大优势。它比纯生成方法(无优化)性能更强,又比纯幻想方法(无先验)搜索效率更高,成功地将两个范式的优点统一起来。

结果三:功能的多样性与扩展性 * 接口氢键优化: 研究者将接口氢键能量作为额外的奖励项与结构预测奖励结合进行优化。结果表明,这不仅能保持甚至提高成功率,还能显著增加生成结合剂接口的氢键数量(表3),展示了框架优化物理化学性质的能力。 * 折叠类指导的多样性生成: 通过条件化于CATH折叠类标签,Complexa可以可控地生成特定二级结构组成(如全α螺旋、全β折叠)的结合剂(图6),克服了以往模型偏向生成α螺旋的问题,增加了设计多样性。 * 挑战性多链靶标: 在TNF-α、H1、IL17A等极具挑战性的多链靶标上,即使公开基线方法在32 GPU小时内无法取得任何成功,Complexa通过延长搜索(>100 GPU小时)仍能找到成功的设计,证明了其处理复杂问题的潜力。 * 酶设计基准测试: 在原子级酶活性位点支架设计(AME)基准上,Complexa扩展了其对小分子和原子级基序的条件生成能力。在41个任务中的38个上,其性能大幅超越了专门为此任务设计的RFDiffusion2模型(图10)。

结果四:消融研究验证关键设计 * TeddyMer数据的重要性: 不使用TeddyMer数据,仅用PDB复合物训练模型,其性能急剧下降。这表明大规模合成数据对于学习多样的蛋白质-蛋白质相互作用模式至关重要。 * 平移噪声的重要性: 移除平移噪声会导致模型无法准确放置结合剂,性能显著降低,证明了该设计对于实现精确界面定位的必要性。

五、 结论与意义

本研究提出并验证了Proteı́na-Complexa,这是一个开创性的、完全原子级的蛋白质结合剂生成框架。其核心贡献在于首次在基于结构的蛋白质设计领域,将大规模生成式预训练与推理时计算扩展统一到一个框架中,弥合了生成式与幻想式方法之间的鸿沟。

科学价值: 1. 范式创新: 提出了“基础模型 + 推理时搜索”的蛋白质设计新范式,为后续研究指明了方向。 2. 数据创新: 构建了TeddyMer数据集,为解决蛋白质复合物数据稀缺问题提供了新思路。 3. 算法创新: 系统性地将束搜索、MCTS等序列决策算法适配到连续状态的蛋白质生成流中,并证明了其有效性。 4. 模型能力拓展: 证明了单一模型框架不仅能进行高成功率的结合剂设计,还能实现物化性质(氢键)优化、结构多样性控制和跨任务(酶设计)扩展。

应用价值: 1. 高效药物发现: 能够更快、更有效地为具有挑战性的疾病靶点(包括多链靶标和小分子)生成高质量的候选结合剂,加速抗体、酶抑制剂等药物的早期发现。 2. 蛋白质工程工具: 提供了一个强大、灵活且开源(代码、模型、数据将公开)的平台,供生物技术和合成生物学领域的研究人员进行蛋白质功能设计和优化。 3. 基础研究探针: 通过生成和测试大量蛋白质-靶标相互作用对,可用于探索生物物理相互作用、分子识别和蛋白质折叠的基本原理。

六、 研究亮点

  1. 首创的统一框架: 成功融合了生成式建模与幻想式优化两种主流蛋白质设计范式的优势,是领域内的一项重要突破。
  2. 大规模合成数据集的构建与利用: 创造性利用AFDB结构域相互作用构建TeddyMer数据集,极大缓解了训练数据瓶颈。
  3. 系统性的推理时优化探索: 首次系统地将多种测试时计算扩展算法引入蛋白质设计,并进行了详尽的比较分析,证明了其相对于传统方法的优越性。
  4. 全原子、端到端设计: 模型直接生成原子级坐标和对应序列,无需额外的骨架到序列的逆折叠步骤,简化流程且性能卓越。
  5. 卓越的跨任务性能: 在标准蛋白质/小分子结合剂设计、酶设计等多个具有挑战性的基准测试中,均取得了目前已知的最佳性能。

七、 其他有价值内容

研究的可重复性声明非常完善,承诺将公开发布源代码、模型权重和TeddyMer数据集,这对于促进领域发展至关重要。同时,论文包含了伦理声明,在肯定技术潜力的同时,也呼吁对可能的风险进行审慎监督和负责任部署,体现了研究者的社会责任感。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com