ML-Advinfect：一种基于机器学习的腺病毒感染预测工具

分享自：
ML-Advinfect：一种基于机器学习的腺病毒感染预测工具

期刊:Frontiers in Molecular BiosciencesDOI:10.3389/fmolb.2021.647424
学术研究报告：基于机器学习的腺病毒感染预测模型ml-advinfect
一、 主要作者、机构及发表信息
本研究的主要作者为Onur Can Karabulut、Betül Asiye Karpuzcu、Erdem Türk、Ahmad Hassan Ibrahim以及Barış Ethem Süzek（通讯作者）。作者单位包括土耳其穆拉·锡特克·科奇曼大学自然与应用科学研究生院的生物信息学研究生项目、穆拉·锡特克·科奇曼大学工程学院计算机工程系，以及美国华盛顿特区的乔治敦大学医学中心生物化学与分子细胞生物学系。
该研究于2021年5月7日发表于学术期刊 Frontiers in Molecular Biosciences，文章标题为“ml-advinfect: a machine-learning based adenoviral infection predictor”。
二、 学术背景与研究目的
本研究属于病毒生物信息学、计算生物学和宿主-病原体相互作用预测的交叉领域。腺病毒（Adenoviruses， AdVs）是一个多样化且具有广泛宿主范围的病毒家族，既是重要的病原体，也是基因治疗和疫苗开发中广泛使用的病毒载体。腺病毒感染发生的关键初始步骤是病毒配体（主要是纤维蛋白）与宿主细胞表面的特异性蛋白受体结合。这种结合是一种特定类型的蛋白质-蛋白质相互作用（Protein-Protein Interaction， PPI），是决定病毒感染能否发生的先决条件。
尽管已有大量关于病毒-宿主相互作用的数据积累在公共生物信息学资源中，但目前缺乏一个能够整合并解读这些数据，从而直接推断感染是否发生的计算模型。因此，本研究旨在填补这一空白。研究团队接受“病毒进入细胞”作为感染性的决定性参数，提出并开发了一个基于机器学习（具体为支持向量机， Support Vector Machine， SVM）的计算方法，用于预测给定宿主中是否可能发生腺病毒感染。其核心目标是通过整合多种现有病毒-宿主PPI预测工具的输出，并结合宿主分类学信息，构建一个能够有效预测腺病毒感染能力并预警潜在跨物种传播风险的综合模型——ml-advinfect。
三、 详细研究流程
研究流程主要包括五个关键步骤，构成了一个从数据收集、整合到模型构建与评估的完整计算分析框架。
第一步：数据集的构建——识别腺病毒宿主、受体和配体
腺病毒宿主识别：研究人员从UniProt知识库、Virus-Host DB和NCBI GenBank中系统性地收集了已知感染腺病毒的宿主信息。通过解析物种名称、查阅相关文献和序列提交记录，最终整理出一个包含297个潜在宿主物种的列表。为确保后续分析的可靠性，他们筛选出其中在UniProt中拥有完整蛋白质组数据的40个宿主物种，作为最终的分析对象。这些宿主涵盖了哺乳动物、鸟类、爬行动物和两栖动物，反映了腺病毒的广泛宿主范围。
宿主受体蛋白集创建：研究聚焦于8个经过文献验证、作为腺病毒主要进入受体的宿主蛋白：CAR、CD46、CD80、CD86、Dsg2、ITAV、MSR1和MARCO。他们以这些受体的人类蛋白序列为查询，使用BLAST工具对40个宿主物种的完整蛋白质组进行序列相似性搜索。通过设定严格的E值（<1e-20）和序列重叠（>66%）阈值，识别并收集了这些受体在各个宿主中的直系同源物。例如，CAR在32个宿主中被发现，而MARCO仅在17个宿主中存在。这一步骤确保了模型能够考虑不同宿主中受体存在与否的差异。
腺病毒纤维蛋白集创建：腺病毒的纤维蛋白是主要的病毒配体。研究团队通过UniProt的API和本地BLAST搜索，利用一系列同义词（如“fiber”、“fibre”等）检索并整理了254个腺病毒纤维蛋白序列，构成了病毒配体的数据集。
腺病毒感染预测数据集的准备：基于以上数据，研究构建了包含10,237个“腺病毒-宿主”对的数据集。对于每一对组合，计算一个特征向量： PPI预测特征（第一组分）：使用四种公开的病毒-宿主PPI预测工具——DeNovo、Hopitor、VHPPI和InterSPPI-HVPPI，分别预测该腺病毒的纤维蛋白与宿主8个受体中每一个之间是否存在相互作用。每个工具对每个受体产生一个二进制预测（1表示预测有相互作用，0表示无相互作用或受体不存在）。因此，每个“腺病毒-宿主”对产生了32个（4个工具 × 8个受体）二进制特征。
宿主分类学特征（第二组分，实验性）：为了探索宿主分类学（属、科、目、纲）是否对感染预测有贡献，研究人员将宿主在NCBI分类数据库中的分类等级信息编码为分类特征。
类别标签：根据第一步中整理的已知感染关系，为每个“腺病毒-宿主”对分配一个二元标签：1表示该腺病毒已知感染该宿主（阳性样本，共220对），0表示未知感染关系（阴性样本，共10,017对）。这构成了机器学习模型的监督学习目标。
第二步：构建腺病毒感染预测模型
研究采用了三种常用的机器学习分类算法：随机森林（Random Forest， RF）、支持向量机（SVM）和多层感知器（Multilayer Perceptron， MLP）。针对数据集严重的类别不平衡问题（阳性样本远少于阴性样本），在模型训练过程中采用了随机过采样技术来增加阳性样本的数量。
研究流程包括： 1. 数据分割：将整个数据集按80:20的比例划分为训练集和测试集。 2. 超参数调优：在训练集上使用10折交叉验证进行超参数调优。在每一折中，仅对9份训练数据进行过采样，用其训练模型，并在剩余1份验证数据上评估性能，以避免数据泄露。研究人员测试了不同算法的多种参数组合（如SVM的核函数、MLP的激活函数和隐藏层结构、RF的树深度和数量等）。 3. 模型评估：确定最佳超参数后，用整个训练集（80%数据）重新训练最终模型，并在独立的测试集（20%数据）上评估其性能。为了获得稳定的性能估计，上述80-20分割和评估过程重复了100次，报告平均性能指标和标准差。评估指标包括灵敏度（Sensitivity）、特异性（Specificity）、准确率（Accuracy）、F-分数（F-score）、马修斯相关系数（Matthew‘s Correlation Coefficient， MCC）和受试者工作特征曲线下面积（Area Under Curve， AUC）。
第四步：主要研究结果
数据集特征：研究成功构建了一个包含40个宿主物种、8个受体、254个腺病毒纤维蛋白的综合性腺病毒-宿主相互作用资源。数据分析显示，不同病毒-宿主PPI预测工具（DeNovo、Hopitor、VHPPI、InterSPPI-HVPPI）对同一受体-配体对的预测结果相关性较低（相关系数在0.13至0.79之间），特别是对于长蛋白（如Dsg-2和ITAV），预测一致性更差。这证明了整合多种预测工具（集成学习）的必要性，而非依赖单一工具。
模型性能比较：经过超参数调优和100次重复测试，基于SVM（使用径向基函数核）的模型在未加入宿主分类学特征的情况下，取得了最佳的平衡性能，其平均灵敏度为0.88 ± 0.011，特异性为0.83 ± 0.064，AUC为0.86 ± 0.030。尽管加入宿主分类学特征（如属、科等级别）能略微提升模型性能（例如灵敏度可达0.92），但考虑到当前数据集对真实宿主多样性的覆盖有限，为避免引入偏差，研究团队最终选择了不包含分类学特征的SVM模型作为ml-advinfect的核心预测器。该模型在保持高灵敏度的同时，也具备了良好的特异性，意味着它能较准确地识别出可能发生感染的组合，同时将误报控制在较低水平。
单一受体或单一PPI工具的局限性：研究团队还尝试了仅基于单个受体或单个PPI预测工具的特征来构建感染预测模型。结果表明，无论是基于单一受体还是单一PPI工具，都无法达到令人满意的预测性能。这进一步证实了整合多种受体信息和多个PPI预测工具输出的集成策略对于实现准确感染预测至关重要。
跨物种传播的潜在发现：对SVM模型产生的假阳性预测（模型预测会感染，但当前知识认为不会）进行了深入分析。研究发现，部分假阳性可能揭示了潜在的跨物种传播事件。例如，15%的假阳性涉及人腺病毒感染非人灵长类动物，这是一种已知的人畜共患传播。更有趣的是，模型预测一种卷尾猴腺病毒（TMAdV）能感染人类，而文献证实该病毒确实在一次动物疫情中传播给了密切接触的研究人员及其家人，造成了严重疾病。此外，模型还预测了人腺病毒向狗、山羊、猪等家养动物的潜在宿主转移。这些分析表明，ml-advinfect不仅是一个感染预测工具，还可能具有预警新发或潜在人畜共患病毒风险的能力。
第五步：研究结论与价值
本研究成功开发了首个基于机器学习的腺病毒感染预测模型——ml-advinfect。该模型通过整合多种病毒-宿主蛋白质相互作用预测工具的结果，能够有效预测腺病毒在给定宿主中的感染能力。其科学价值在于： 1. 方法论创新：提出并验证了一种“集成PPI预测以推断更高层次的感染表型”的计算框架。该框架不依赖于单一的生物物理模型或实验数据，而是利用现有公共数据和工具进行知识整合与推理。 2. 资源贡献：研究过程中构建的综合性腺病毒-宿主相互作用数据集（包括宿主、受体、配体及其预测的相互作用）本身就是一个有价值的生物信息学资源，可供其他相关研究使用。 3. 应用潜力：ml-advinfect可用于快速筛查腺病毒的潜在宿主范围，评估腺病毒载体在基因治疗中针对新靶细胞或物种的感染风险，并有助于监测和预警腺病毒的跨物种传播，对公共卫生和病毒学研究具有实际意义。 4. 可扩展性与普适性：研究所提出的方法（识别宿主、确定互作蛋白对、利用集成机器学习模型）具有高度的通用性，未来可以扩展到预测其他类型病毒的感染性，为病毒宿主范围预测提供了一个可借鉴的范式。
第六步：研究亮点
首创性：这是首个专门针对腺病毒感染能力进行预测的机器学习模型，将蛋白质相互作用预测提升到了感染表型预测的层次。
集成策略：创新性地将多个独立的、性能各异的病毒-宿主PPI预测工具的输出进行整合，利用机器学习（SVM）学习它们与感染结果之间的复杂关系，克服了单一工具的局限性，显著提升了预测的鲁棒性和准确性。
综合性数据基础：研究基于严格的文献筛选和生物信息学分析，手动整理了目前最全面的腺病毒主要受体列表，并系统性地构建了涵盖多物种的宿主-受体-配体数据集，为模型提供了扎实的数据支撑。
超越预测的洞察：模型不仅实现了感染预测，其假阳性分析还提供了对潜在、尚未被充分认识的跨物种传播事件的线索，显示了其在病毒生态学和流行病学预警方面的潜在价值。
第七步：其他有价值的内容
研究在讨论部分也坦诚地指出了模型的局限性。例如，模型仅考虑了病毒通过主要蛋白受体进入细胞这一初始步骤，而实际的感染和传播还可能涉及非蛋白质分子相互作用、与可溶性宿主蛋白的结合、次级相互作用以及不同的内吞机制等。此外，模型目前仅包含了纤维蛋白作为配体，而其他病毒蛋白也可能参与结合。未来，该框架可以通过纳入更多经过验证的病毒-宿主相互作用对（包括其他病毒蛋白和宿主因子）进行扩展。随着更多宿主完整蛋白质组数据的发布，模型的覆盖范围和预测能力有望进一步提升。研究团队还展望了基于ml-advinfect开发一个用户友好的网络平台的可能性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问