分享自:

深度学习在抗体设计中的应用:从序列和结构设计到亲和力成熟

期刊:Briefings in BioinformaticsDOI:10.1093/bib/bbae307

深度学习在抗体设计中的应用:从序列结构设计到亲和力成熟

作者及机构
本文由来自意大利比萨大学计算机科学系的Sara Joubbi、Alessio Micheli、Paolo Milazzo,以及托斯卡纳生命科学基金会(Fondazione Toscana Life Sciences)Data Science for Health (DASCH)实验室的Giuseppe Maccari、Giorgio Ciano、Dario Cardamone和Duccio Medini共同完成。文章于2024年6月12日被*Briefings in Bioinformatics*接收,并于同年发表在该期刊的第25卷第4期,文章编号bbae307。

主题与背景
本文是一篇系统性综述,聚焦于深度学习(Deep Learning, DL)技术在抗体设计领域的应用。抗体作为免疫系统的关键蛋白质,因其高特异性被广泛用于生物治疗(如单克隆抗体药物)。然而,传统抗体开发方法(如噬菌体展示)成本高、耗时长,且受限于实验技术的通量。近年来,深度学习在计算机视觉和自然语言处理等领域的成功,推动了其在生物学中的应用,尤其是在抗体设计中的革命性进展。本文综述了深度学习如何优化抗体的序列设计、结构预测、抗原结合位点(paratope-epitope)预测、分子对接(docking)及亲和力成熟(affinity maturation)等关键环节。

主要观点与论据

  1. 抗体设计的深度学习框架
    抗体设计流程可分为序列/结构生成、折叠预测、抗原-抗体相互作用建模和亲和力优化四个阶段。深度学习模型主要分为三类:

    • 基于结构的模型(如IG-VAE):通过变分自编码器生成抗体骨架结构,但依赖外部工具(如Rosetta)优化突变效应。
    • 基于序列的模型(如AntiBERTa、IgLM):利用Transformer架构(如BERT、GPT-2)从海量抗体序列中学习特征,生成高多样性序列。例如,IgLM在区分人源与非人源抗体中AUROC达0.96,优于通用蛋白质语言模型(如ProtBERT)。
    • 结构与序列联合模型(如RefineGNN、DiffAb):结合几何深度学习(如等变图神经网络)和扩散模型,实现序列与结构的协同设计。DiffAb通过去噪扩散概率模型(DDPM)生成互补决定区(CDR)的序列和结构,但需已知抗体框架结构。
  2. 抗体结构预测的突破
    传统方法(如分子动力学模拟)计算成本高,而深度学习模型显著提升了预测效率:

    • 通用蛋白质折叠工具(如AlphaFold2、ESMFold):通过多序列比对(MSA)预测结构,但对抗体高变区(如CDR-H3)效果有限。
    • 抗体特异性工具(如AbLooper、IgFold):专为抗体设计,CDR-H3预测精度达2.81 Å(RMSD),接近X射线分辨率(2 Å)。IgFold利用Antiberty的嵌入表示,在纳米抗体(nanobody)预测中表现尤佳。
  3. 抗原-抗体相互作用预测的挑战
    抗原结合界面预测是抗体设计的核心难点:

    • 图神经网络(GNN)方法:如PECAN通过对称图卷积网络预测paratope-epitope,但需对称输入,而EPMP采用非对称架构,PR-AUC达0.75(paratope)和0.28(epitope)。
    • 指纹方法:如Surface ID基于分子表面特征聚类,但计算速度慢。
    • 序列方法:如ABAdapt仅依赖序列输入,性能低于结构方法(PR-AUC 0.683 vs. 0.75),凸显结构信息的重要性。
  4. 联合对接与设计的创新
    传统分步流程(先设计后对接)效率低,新兴方法如Dymean通过多通道等变注意力网络(MEAN)实现端到端设计,H3环设计成功率(DockQ)达44%,优于分步方法(37%)。扩散模型(如Peng et al.的流程)进一步整合生成与优化步骤,提升结合亲和力。

  5. 亲和力成熟的深度学习优化
    体外成熟(如随机突变)成本高,而深度学习模型可预测突变效应:

    • GearBind:通过几何编码预测结合自由能变化(ΔΔG),在SARS-CoV-2抗体优化中使亲和力提升17倍,Pearson相关系数0.62。
    • Shan et al.的Transformer模型:专注残基界面,单突变预测Pearson系数0.65,但需结合实验验证。

数据库资源
文章列举了关键抗体数据库(如OAS含20亿序列、SAbDab含1万结构)和纳米抗体库(如NanoLaS),为训练深度学习模型提供数据支持。

意义与价值
本文系统梳理了深度学习在抗体设计中的全流程应用,揭示了以下价值:
1. 科学价值:阐明了DL如何克服传统方法的局限性(如CDR-H3预测难题),并提出联合设计-对接的范式转变。
2. 应用价值:加速治疗性抗体开发,降低成本(如DiffAb无需实验结构即可设计抗体)。
3. 未来方向:需解决数据稀缺性、构象灵活性建模等问题,并开发更可靠的体外验证指标。

亮点
- 方法创新:首次对比三类DL模型(序列/结构/联合)在抗体设计中的优劣。
- 技术整合:涵盖从生成模型(VAE、扩散)到几何深度学习(GNN、Transformer)的前沿技术。
- 领域聚焦:专述抗体(含纳米抗体)设计的特殊性,如CDR-H3的高变性和亲和力成熟的复杂性。

本文为计算生物学与免疫治疗的交叉研究提供了重要参考,尤其为AI驱动的药物设计指明了实践路径。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com