基于人工智能的氢氘交换预测揭示蛋白质动力学基本特征:SARS-CoV-2免疫逃逸机制研究学术报告
一、 研究团队与发表信息
本研究由美国德克萨斯农工大学(Texas A&M University)的Jiali Yu、Ugur Uzuner、Bin Long、Zachary Wang、Joshua S. Yuan以及通讯作者Susie Y. Dai(邮箱:sydai@tamu.edu)共同完成。研究论文题为“Artificial intelligence-based HDX (AI-HDX) prediction reveals fundamental characteristics to protein dynamics: mechanisms on SARS-CoV-2 immune escape”,发表于爱思唯尔(Elsevier)旗下开放获取期刊 iScience 2023年4月21日第26卷,文章编号106282。
二、 学术背景与研究目的
本研究属于计算生物学、蛋白质组学与人工智能交叉领域,核心关注点是蛋白质的结构动力学。蛋白质的三维结构及其动态变化对其功能至关重要。氢氘交换耦合质谱(Hydrogen-Deuterium Exchange Mass Spectrometry, HDX-MS)是一种能够在生理相关条件下探测蛋白质动态信息的强大实验技术,在制药工业中广泛应用。然而,HDX-MS实验耗时耗力,数据处理复杂,且难以获得单氨基酸分辨率水平的动力学信息。尽管AlphaFold2和RosettaFold等基于人工智能(AI)的工具在蛋白质静态结构预测方面取得了里程碑式的成就,但在高通量分析生理环境(如溶液相)下的蛋白质动力学方面,仍存在显著的技术空白。分子动力学(Molecular Dynamics, MD)模拟虽然能提供原子尺度的动态信息,但对于中等大小蛋白质和较长的时间尺度计算挑战巨大。
因此,本研究旨在开发首个基于深度学习的模型——人工智能氢氘交换预测模型(AI-HDX),能够仅根据蛋白质的氨基酸序列来预测其内在的溶液相动力学特性。该模型的目标是整合深度学习、实验HDX数据、序列比对和蛋白质结构预测,实现对蛋白质结构动力学的高通量、快速预测,从而应用于药物发现(如SARS-CoV-2抗体效力与病毒逃逸机制研究)、蛋白质工程和生物医学研究等领域。
三、 详细研究流程
本研究流程主要包括数据库构建、模型开发、验证与应用三个核心阶段。
第一阶段:数据库构建与特征工程 1. 数据收集与处理:研究团队从两个公共HDX-MS数据库(PRIDE和MassIVE)中收集了训练数据集。经过筛选,最终获得了来自11个物种、39个已知蛋白质家族的52个蛋白质的63组HDX结果表,共包含4443个肽段的实验HDX速率数据。这些数据覆盖了广泛的肽段多样性,但超过80%的肽段HDX速率集中在0.2-0.7之间,形成了不平衡的训练数据集。 2. 特征提取与编码:为每个蛋白质序列构建了综合的特征向量,作为AI模型的输入。特征主要包括三部分: * 进化特征:使用HHblits工具将蛋白质序列与UniRef数据库进行多序列比对(Multiple Sequence Alignment, MSA),生成每个氨基酸的30维进化相似性向量。 * 氨基酸理化特征:利用高维分子数据(High-Dimensional Molecular Data, HDMD)索引氨基酸的理化性质,并通过主成分分析降维为5个主要成分。 * 结构可及性特征:计算每个氨基酸残基的溶剂可及表面积(Solvent Accessible Surface Area, SASA)。由于许多训练蛋白质的3D结构尚未解析,研究使用AlphaFold2和RosettaFold预测其3D结构,再通过DSSP程序计算SASA。 最终,每个蛋白质序列被编码为一个36 x N的数组(N为序列长度),其中包含MSA、HDMD和SASA信息。
第二阶段:AI-HDX预测模型开发与训练 1. 模型架构设计:研究团队开发了一个深度神经网络(Deep Neural Network, DNN)模型。该模型的核心架构结合了二维卷积神经网络(2D-CNN)和双向长短期记忆网络(BiLSTM)。2D-CNN层用于捕捉蛋白质序列中的局部模式和特征,而BiLSTM层则擅长学习序列中的长程依赖关系。模型最后通过全连接层输出预测的HDX速率(0到1之间的值)。 2. 模型训练与比较:研究首先尝试了简单的K-最近邻(K-Nearest Neighbors, KNN)算法作为基线模型。随后,重点训练了上述DNN模型(即AI-HDX)。他们将63个数据集随机分为70%的训练集和30%的验证集。通过比较发现,仅使用MSA特征时,DNN模型预测与实验HDX速率之间的斯皮尔曼相关系数(rho)仅为0.32。在加入了HDMD和SASA特征后,模型性能显著提升,验证集的均方根误差(RMSE)从0.24降至0.17,斯皮尔曼相关系数提高至0.7134。这证明了蛋白质结构可及性(SASA)是HDX建模中预测交换速率的重要参数。因此,最终选择了包含MSA、HDMD和SASA特征的改进版DNN作为AI-HDX预测模型。 3. 置信度指数(Confidence Index, CI):鉴于训练数据中高交换率(>0.7)和低交换率(<0.2)的肽段样本不足,可能导致这些区间的预测不准确,研究者定义了一个置信度指数(CI)。CI基于模型在验证集上不同HDX速率区间的预测准确性计算得出,用于评估每个肽段预测HDX速率的可靠性。CI值越高,表示预测结果越可信。
第三阶段:模型验证与实际应用 1. 模型验证:为了证明AI-HDX的广泛适用性,研究团队使用两个独立蛋白质的实验HDX数据对模型进行验证:人雌激素受体β(ERβ)和里氏木霉来源的内切-β-1,4-木聚糖酶(Xyn1)。结果显示,AI-HDX对这两个蛋白质的预测RMSE分别为0.25和0.26。模型在HDX速率介于0.2-0.7之间的肽段上预测最为准确,而对于位于α-螺旋和β-折叠二级结构区域的肽段,预测精度也高于位于环(loop)和转角(turn)区域的肽段。这可能是由于AlphaFold2/RosettaFold对后者结构的预测置信度本身较低所致。 2. 应用案例:SARS-CoV-2刺突蛋白RBD变体动力学与免疫逃逸机制:作为应用示范,研究者将AI-HDX应用于SARS-CoV-2刺突蛋白受体结合域(RBD)的动力学分析,以探究病毒变体免疫逃逸的潜在机制。 * 研究对象:分析了武汉原始毒株RBD和奥密克戎(Omicron)变体RBD(携带S375F, K417N, S477N, T478K, E484A突变)的动态特性。同时,模拟了两种抗体结合后的情况:武汉RBD与抗体Ste90-C11的结合,以及奥密克戎RBD与抗体S309的结合。 * 分析流程:对于未结合(apo)状态的RBD,使用RosettaFold预测其3D结构并计算SASA。对于抗体结合状态,则使用已知的晶体结构或冷冻电镜结构(PDB: 7B3O, 7TLY, 6WPS)计算SASA。随后,利用AI-HDX模型预测各肽段的HDX速率。 * 逻辑关系:通过比较不同状态下(不同变体、结合/未结合抗体)RBD各区域的HDX速率变化,推断其结构动力学的改变,从而从动力学角度解释抗体中和效力差异的机制。
四、 主要研究结果
AI-HDX模型成功构建并验证:研究成功开发了首个仅依赖蛋白质序列和预测的3D结构来预测HDX速率的深度学习模型。验证实验表明,该模型能够以合理的准确性预测ERβ和Xyn1的HDX谱,尤其在主流测量范围(0.2-0.7)内表现良好。置信度指数(CI)与预测误差(RMSE)呈负相关,有效指导了用户对预测结果的解读。
揭示了奥密克戎变体RBD动力学变化与免疫逃逸的潜在关联:
AI-HDX的创新优势:
五、 研究结论与价值
本研究首次证明,深度学习技术能够成功预测HDX-MS实验中的肽段氢氘交换速率。所开发的AI-HDX模型是首个仅凭氨基酸序列和预测的3D结构就能预测蛋白质溶液相结构动力学的“从头”机器学习模型。
科学价值:该研究填补了当前AI蛋白质分析工具在高通量生理环境动力学预测方面的空白。它将实验数据、深度学习建模和数据科学相结合,为从序列直接解读蛋白质动态功能关系提供了新的策略和工具。研究证实,蛋白质结构动力学信息(通过HDX速率反映)对于理解如抗体-抗原识别等生物分子相互作用至关重要。
应用价值: 1. 加速药物发现:可快速评估药物靶点的动力学特性,筛选化合物库,例如用于分类雌激素受体调节剂。 2. 指导蛋白质工程与设计:通过预测突变对蛋白质动态的影响,指导酶工程中的位点定向突变,优化生物催化剂性能。 3. 揭示生物学机制:如本研究所示,可用于分析病毒变体免疫逃逸的动力学机制,为抗体药物评估和疫苗设计提供新视角。 4. 高通量分析:相较于耗时的实验HDX-MS,AI-HDX能快速、低成本地提供蛋白质动力学图谱,极大提高了分析通量。
六、 研究亮点
七、 其他有价值内容与局限性
局限性:作者在文中也明确指出了当前AI-HDX模型的几点局限性: 1. 数据依赖性强:模型性能高度依赖于训练数据的质量和数量。目前公开的高质量HDX数据集有限(仅63个),且高/低交换率区域的样本不足,影响了模型在这些区间的预测精度。 2. 依赖外部结构预测:模型需要AlphaFold2或RosettaFold提供的3D结构来计算SASA,因此其准确性受限于这些结构预测工具的精度,特别是在环和转角等难以预测的区域。 3. 实验数据标准化问题:不同实验室的HDX实验流程和数据处理存在差异,影响了训练数据库的一致性。未来社区实验实践的标准化将有助于提升数据质量和模型精度。 4. 对短肽预测的挑战:对于长度小于10个氨基酸的短肽,预测误差相对较大,部分原因是训练数据中长肽段占主导。
未来展望:随着更多HDX实验数据的积累、蛋白质结构预测精度的提升以及实验标准的统一,AI-HDX的预测准确性和应用范围有望得到进一步拓展。它有望成为蛋白质动力学表征、蛋白质-蛋白质相互作用研究以及指导药物设计和蛋白质工程的核心数据驱动工具。