分享自:

噬菌体-质粒促进重组以及噬菌体与质粒的出现

期刊:Nature CommunicationsDOI:10.1038/s41467-024-45757-3

研究报告:噬菌体-质粒(Phage-Plasmids)促进基因重组以及新噬菌体和质粒的出现

作者及机构: 本项研究由法国巴黎西岱大学(Université Paris Cité)巴斯德研究所(Institut Pasteur)CNRS UMR3525微生物进化基因组学实验室的Eugen Pfeifer和Eduardo P. C. Rocha合作完成。研究成果发表于*Nature Communications*期刊,发表日期为2024年(卷15,文章号1545)。

学术背景与研究动机: 研究领域属于微生物进化基因组学和移动遗传元件(Mobile Genetic Elements, MGEs)生物学。在传统认知中,噬菌体(Phages)和质粒(Plasmids)是两类截然不同的移动遗传元件,分别通过不同的机制(病毒颗粒感染或接合作用)驱动细菌的基因水平转移(Horizontal Gene Transfer)和基因组进化。然而,自然界中存在着一类被称为噬菌体-质粒(Phage-Plasmids, P-Ps)或原噬菌体-质粒(Prophage-Plasmids)的混合元件,它们既能够像病毒一样在细胞间水平传播,又能够像质粒一样在细胞谱系内垂直遗传。这种双重性模糊了噬菌体与质粒之间的界限。

虽然少数P-Ps(如P1、N15)已被研究数十年,但最近的大规模基因组分析表明,P-Ps的数量远比想象中丰富,约占所有质粒和噬菌体的5-7%。鉴于P-Ps同时编码噬菌体的病毒颗粒组装/包装机制和质粒的复制/分配系统,它们天然地拥有与两类元件高度同源的基因。因此,一个核心的科学问题随之产生:P-Ps是否能在噬菌体和质粒这两大通常被认为是独立进化的MGE“世界”之间充当基因流动的桥梁?它们是否促进了核心功能、防御系统、抗生素抗性基因等的交换?更重要的是,基因流动与基因失活是否可能导致P-Ps自身转化,成为纯粹的噬菌体或质粒?本研究旨在通过大规模计算基因组学分析,定量评估P-Ps与噬菌体、质粒之间的基因流,揭示其介导基因交换的功能、机制及其在MGE类型转换中的作用。

研究流程与方法详述: 本研究是一项全面的计算基因组学分析,未涉及湿实验,但其方法学设计严谨且具有创新性。主要流程如下:

1. 数据收集与元件分类: * 数据来源: 从NCBI RefSeq数据库(截至2021年3月)获取了16,985株细菌的完整基因组、20,274个质粒、3,585个完整噬菌体基因组,并使用VirSorter2从细菌基因组中预测了50,262个原噬菌体区域。 * P-Ps鉴定: 采用作者团队此前开发的方法(Pfeifer et al., 2021, *Nucleic Acids Research*),通过机器学习模型(随机森林)在质粒中搜索必需的噬菌体功能基因(反之亦然),鉴定出1,416个可信的噬菌体-质粒(P-Ps)。 * 分组聚类: 为了便于分析,对三类元件进行了系统分组: * 噬菌体: 使用vConTACT2工具,将2,412个噬菌体聚类为258个病毒簇(Viral Clusters, VCs)。 * 质粒: 使用COPLA工具,将9,383个质粒聚类为356个质粒分类单元(Plasmid Taxonomic Units, PTUs),并进行不相容性(Inc)分型。 * P-Ps: 基于加权基因库相关性(Weighted Gene Repertoire Relatedness, WGRR)矩阵,使用Louvain算法将513个P-Ps聚类为9个紧密相关的组(包括P1-like、N15-like等),615个聚类为22个广泛相关的群落。

2. 评估基因库重叠与网络构建: * 方法: 计算所有MGE组(包括未分组的单体)之间的加权基因库相关性(WGRR)。WGRR是一个综合了同源基因比例和序列相似性的指标(公式见原文)。计算每对组之间的平均WGRR,构建关系网络图,并使用力导向布局算法(Fruchterman-Reingold)对节点进行排列,直观展示不同类型元件之间的亲缘关系。

3. 检测近期基因交换事件: * 核心创新方法: 由于MGEs进化快、重组频繁,难以构建深层系统发育树来追踪基因流。因此,研究采用了其团队之前开发的保守方法来检测“近期”基因交换:关注那些存在于两个基因库整体非常不同(WGRR ≤ 0.1),但其间存在高度相似(蛋白序列同一性 ≥ 80%,比对覆盖度 ≥ 80%)的双向最佳匹配(Bidirectional Best Hit, BBH)基因对的MGEs。 * 基因分类: 符合上述条件的基因被定义为重组基因(Recombining Genes, RGs),代表近期发生了交换。其余有同源物但不符合严格条件的基因定义为非重组基因(Non-recombining Genes, NRGs),没有同源物的基因定义为NRG-nh。 * 排除干扰: 为避免大型质粒(如染色体外染色体或第二染色体)中整合的完整原噬菌体带来的假阳性,研究排除了MGE对之间RGs数量超过25个的配对。 * 量化基因流: 为了准确计数交换事件类型而非简单地计数基因数量,研究将所有RGs基于严格序列相似性(≥80%同一性,≥80%覆盖度)进行单连锁聚类,形成RGs基因家族。然后,分析每个家族内部存在的交换类型(如:仅在质粒间交换、在P-Ps与质粒间交换等),每种类型在一个家族中只计数一次,以避免对同一祖先交换事件的重复计数。最后,将观察到的不同类型交换频率与随机重排标签(保持各类型元件比例不变)的模拟预期值进行比较。

4. 分析被交换基因的功能: * 功能注释: 使用多个专业数据库对RGs和NRGs进行功能注释,包括: * 噬菌体功能: PHROGs数据库。 * 质粒核心功能: 复制和分配系统的HMM谱。 * 防御系统: DefenseFinder数据库,采用两种严格度(cut_ga和覆盖度≥50%)。 * 抗生素抗性基因(ARGs): AMRFinderPlus。 * 毒力因子(VFs): VFDB数据库。 * 重组酶和转座酶: 使用特定的Pfam谱和阈值(如Sak4、RecT)以及ISEScan谱和ISfinder数据库进行鉴定。 * 统计检验: 对每类MGE(质粒、P-Ps、噬菌体),比较RGs和NRGs中各类功能基因的频率,使用Fisher精确检验(经Benjamini-Hochberg校正)判断其是否显著富集或贫乏。同时,比较在相同类型MGE内部交换(within-MGE)与在不同类型MGE之间交换(between-MGE)的RGs功能分布。

5. 探究P1-like噬菌体-质粒的衍生关系: * 筛选同源元件: 从149个P1-like P-Ps出发,在全数据库(质粒、噬菌体、预测原噬菌体)中搜索与其具有显著同源性(WGRR > 0.1且至少有10个BBH)的元件,发现了45个质粒和12个整合原噬菌体区域。 * 聚焦密切关联元件: 从中筛选出至少含有P1亚组1(P1g1)保守基因家族中75%基因的元件,包括119个P1g1 P-Ps、38个质粒和3个整合原噬菌体。 * 构建泛基因组与系统发育树: * 使用Panacota工具构建上述所有元件的严格泛基因组(阈值:80%同一性,80%覆盖度),鉴定出存在于90%以上元件中的17个持久性基因家族。 * 将这17个基因家族的核酸序列进行比对、串联,输入IQ-TREE 2软件,使用最大似然法构建系统发育树(最优模型:SYM+I+G4),并通过1000次超快自举法评估节点支持度。分别使用中点根法和外群根法进行定根。

主要研究结果: 1. P-Ps的基因库处于噬菌体与质粒的连续谱系中: * WGRR网络图显示,大多数P-Ps组位于噬菌体节点群和质粒节点群之间的中间位置,表明它们的基因库与两者均有重叠,构成了MGE的连续谱系。少数P-Ps组(如Camphawk)更靠近噬菌体,而另一些(如Cp32-like)更靠近质粒。

2. P-Ps是噬菌体与质粒间基因流的关键媒介: * RGs频率: 质粒中RGs比例最高(27.1%),P-Ps次之(14.9%),噬菌体最低(4.7%),表明质粒基因交换最活跃,P-Ps居中。 * 基因交换网络: 尽管P-Ps在数据集中数量最少,但它们与质粒之间以及它们与噬菌体之间的基因交换事件数量,显著超过了噬菌体与质粒之间的直接交换。与随机模拟预期相比,P-Ps与质粒/噬菌体的交换频率分别是预期的2.37倍和1.26倍,而噬菌体与质粒的直接交换频率仅为预期的16.7%。 * 核心结论: P-Ps在质粒和噬菌体之间充当了基因流动的“中介”或“桥梁”。

3. 被交换基因的功能多样性: * 核心MGE功能: 噬菌体的头部/包装/裂解等功能在噬菌体内部的RGs中显著富集;质粒的复制/分配系统在P-Ps和质粒的RGs中,尤其是在不同类型MGE间交换的RGs中,有一定程度的富集。 * 防御系统: 在所有三类MGE的RGs中均显著富集(质粒6.2%, P-Ps 8.5%, 噬菌体2.6%),且在between-MGE交换中尤其富集。这表明防御系统是MGE间频繁交换的“热点”。 * 抗生素抗性基因(ARGs): 在质粒和P-Ps的RGs中显著富集,并且主要集中在质粒与P-Ps之间的交换中(富集指数rdiff-sum = +0.50),验证了P-Ps在传播抗生素抗性中的重要作用。 * 毒力因子(VFs): 在噬菌体RGs中显著富集,近一半是志贺毒素(Stx)基因,表明噬菌体在毒力因子向其他MGE类型传播中扮演角色。 * 未知功能: 大部分被交换的基因(>60%)功能未知,提示其中可能蕴藏尚未发现的有益性状。

4. 转座酶和重组酶是驱动基因交换的关键机制: * 显著富集: 转座酶和重组酶是所有三类MGE(尤其是质粒和P-Ps)RGs中最富集的类别之一。 * 分布模式: 转座酶在质粒和P-Ps的RGs中非常丰富(11-12%),但在噬菌体中罕见(<0.4%)。重组酶在噬菌体RGs中相对更常见(2.3%)。 * 作用: 这些酶通过促进同源/非同源重组或转座,推动了MGE内部及不同类型MGE之间的基因交换,特别是连接了P-Ps和质粒的世界。

5. P1-like P-Ps是新型质粒和整合原噬菌体的起源: * 发现“衍生”元件: 找到了38个由P1-like P-Ps衍生而来的质粒和3个衍生而来的整合原噬菌体。 * 系统发育证据: 基于17个保守基因家族构建的系统发育树显示,这些衍生质粒和整合原噬菌体构成了位于P-Ps分支末端的、得到良好支持的进化枝。这强烈表明进化方向是从P-Ps转化为质粒/原噬菌体,而非相反。 * 转化特征: * 向质粒转化: 大多数(30/38)衍生质粒聚集在一个独立分支。它们丢失了部分关键的噬菌体功能基因(如裂解基因、部分尾壳基因、转录调控子),因此丧失了完整的噬菌体生命周期能力。关键发现: 其中50%的质粒获得了松弛酶(Mob)基因和/或转移起始位点(oriT),使其能够被接合性质粒动员,从而“重获”了一种新的水平转移能力(接合作用)。这些质粒还频繁携带ARGs,特别是β-内酰胺酶基因。 * 向整合原噬菌体转化: 3个整合原噬菌体与P-Ps亲缘关系极近,可能通过其自身的Cre-lox系统或借助其他可移动元件整合到了染色体上,从而以原噬菌体形式存在。 * 进化意义: 这首次清晰地证明,通过基因丢失(噬菌体功能)和基因获得(如接合相关元件),P-Ps可以转化为其他类型的MGE,实现从一种传播方式(病毒颗粒)到另一种(接合动员)的彻底转变。

研究结论与意义: 本研究系统性地揭示了噬菌体-质粒(P-Ps)在细菌移动遗传元件生态系统中的核心作用。 1. 桥梁作用: P-Ps是连接噬菌体和质粒这两大基因库的关键桥梁,促进了包括核心功能、防御系统、抗生素抗性基因在内的广泛基因流动。这种流动的频率远高于噬菌体与质粒之间的直接交换。 2. 进化枢纽: P-Ps不仅是基因的“中转站”,其本身也是新型MGE的“起源工厂”。研究以P1-like家族为例,首次展示了P-Ps通过基因丢失和获得,可以进化成为缺陷性的整合原噬菌体,或者转化为可被接合动员的质粒,实现了MGE类型的跨界限转换。 3. 机制阐释: 转座酶和重组酶是驱动这些跨越不同类型MGE的基因交换的主要分子机制。

科学价值与应用价值: * 理论价值: 打破了噬菌体与质粒孤立进化的传统观念,提出了一个以P-Ps为关键节点的、动态互联的MGE“全球基因池”新模型。深化了对MGE多样性起源、抗性基因/毒力因子传播路径、以及MGE生命周期转换的理解。 * 应用价值: 对应对抗生素耐药性危机有重要启示。明确了P-Ps是ARGs在质粒和噬菌体基因库间传播的重要载体,并且其自身也可能通过转化为接合性质粒而增强ARGs的扩散能力。这为预测和干预耐药性传播提供了新的靶点和思路。

研究亮点: 1. 视角新颖: 首次在大规模基因组水平上,系统定量地评估了噬菌体、质粒及其“杂交体”P-Ps三者之间的基因流,明确了P-Ps的核心中介地位。 2. 方法创新: 采用基于“近期相似基因存在于整体不相似元件中”的保守但强大的计算策略,绕过了MGE难以构建可靠系统发育树的难题,有效捕捉了跨类型基因交换信号。 3. 重要发现: 不仅证实了P-Ps促进基因交换,更提供了P-Ps直接转化为其他类型MGE(特别是获得接合动员能力的质粒)的坚实进化证据,这是一个此前未被充分认识的重要进化现象。 4. 数据与资源丰富: 研究构建了全面的数据集和分析流程,相关基因交换分类数据已公开,为领域内后续研究提供了宝贵资源。

其他有价值内容: 研究还探讨了P-Ps为何更易于充当基因交换中介的原因:1)它们天然拥有与噬菌体和质粒同源的序列,便于同源重组;2)相比整合型噬菌体,P-Ps基因组通常更大,含有更多“可插入”的质粒样附属区域,对获得新基因的容忍度更高;3)噬菌体严格的包装尺寸限制和成簇的操纵子结构使其难以容纳大段外源DNA而不影响功能,而P-Ps的杂交结构可能缓解了这种约束。这些思考为进一步的理论和实验研究提供了方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com