关于人类真菌病原体芽生菌及其近亲伊蒙菌的动态基因组与转录组的学术研究报告
本研究的主要作者为 José F. Muñoz、Gregory M. Gauthier、Christopher A. Desjardins 等,作者团队来自 Corporación para Investigaciones Biolológicas (哥伦比亚麦德林)、威斯康星大学麦迪逊分校、麻省理工学院和哈佛大学的 Broad 研究所、华盛顿大学医学院基因组研究所、加州大学伯克利分校等多个研究机构。该研究成果于 2015 年 10 月 6 日发表在学术期刊 PLOS Genetics 上。
一、 学术背景 本研究属于医学真菌学和比较基因组学领域。研究的对象是一类重要的温度依赖性双相性真菌病原体,主要包括引起北美和南美地区主要真菌病的病原体:芽生菌属(*Blastomyces*,引起芽生菌病)、组织胞浆菌属(*Histoplasma*,引起组织胞浆菌病)和副球孢子菌属(*Paracoccidioides*,引起副球孢子菌病)。这些病原体与伊蒙菌属(*Emmonsia*,主要感染小型哺乳动物,引起阿地孢子菌病)同属于Onygenales目的Ajellomycetaceae科。尽管这些真菌在致病性、形态(芽生菌和组织胞浆菌在37°C形成酵母相,而伊蒙菌形成厚壁的阿地孢子)和感染过程上存在差异,但其基因组基础和进化关系尚不十分清晰。此外,当时新近在南非HIV阳性患者中爆发的系统性感染被证实由伊蒙菌属新种引起,凸显了研究这一病原体群体的重要性。
本研究旨在通过基因组测序和转录组分析,深入探究芽生菌属及其近亲伊蒙菌属的基因组进化动态、物种间系统发育关系,并识别与毒力及宿主适应相关的关键基因。具体目标包括:1) 对四株芽生菌(包括三株皮炎芽生菌 B. dermatitidis 和一株吉氏芽生菌 *B. gilchristii*)及两株伊蒙菌(E. parva 和 *E. crescens*)进行全基因组测序和比较分析;2) 阐明芽生菌基因组显著扩张的原因和结构特征;3) 利用RNA测序(RNA-seq)技术,分析皮炎芽生菌在巨噬细胞共培养和小鼠肺部感染模型中的转录组变化,以发现新的潜在毒力因子。
二、 详细工作流程 本研究包含两个主要部分:基因组比较分析和转录组动态分析。工作流程严谨,结合了多种测序技术、生物信息学分析和实验验证。
1. 基因组测序、组装与注释: * 研究对象与样本: 共6个真菌菌株:皮炎芽生菌ATCC26199(常用实验室临床分离株)、ATCC18188(已知的MAT1-1交配型代表株)、ER-3(从疫区木堆分离,对小鼠低毒力);吉氏芽生菌SLH14081(高毒力临床分离株);细小伊蒙菌UAMH139和 crescens伊蒙菌UAMH3008(均分离自小型哺乳动物)。 * 测序技术: 采用混合测序策略以确保组装质量。对于芽生菌SLH14081和ER-3菌株,使用Sanger技术对fosmid和质粒文库进行测序。对于皮炎芽生菌ATCC18188,结合了Roche 454技术(小片段文库)和Sanger技术(fosmid文库)。对于皮炎芽生菌ATCC26199,主要使用454技术,并辅以Sanger测序的质粒和fosmid文库进行补充。对于两个伊蒙菌菌株,则使用Illumina技术生成高通量短读长配对末端测序数据。 * 基因组组装: 使用不同的组装软件以适应不同的数据类型。芽生菌SLH14081和ER-3使用Arachne组装;ATCC18188和ATCC26199使用Newbler进行混合组装;伊蒙菌基因组使用SOAPdenovo进行从头组装。为了验证吉氏芽生菌SLH14081的组装并锚定到染色体水平,研究团队还构建了光学图谱(Optical Map),使用BsiWI限制性内切酶,将组装好的scaffolds定位到18个连锁群上,估计基因组大小约为79.6 Mb,与组装结果(75.35 Mb)接近,证实了组装的可靠性。 * 基因预测与注释: 为了获得高质量的基因集,研究综合利用了多种证据。首先,使用了来自ATCC26199和SLH14081的约38,405条表达序列标签(ESTs)。更重要的是,利用后续获得的RNA-seq数据(见下文),通过Trinity软件组装转录本,并经PASA流程处理。最终,使用EvidenceModeler(EVM)工具整合来自SNAP、Augustus、GeneID、Genewise等基因预测程序以及PASA RNA-seq转录本的证据,为每个基因组选择最佳的基因模型。
2. 转录组分析(RNA-seq): * 研究对象与条件: 以皮炎芽生菌ATCC26199为研究对象,设置了5种不同的生长/感染条件,每种条件两个生物学重复: * 体内感染: 酵母细胞经气管感染C57BL/6小鼠,17天后从感染肺组织中分离酵母进行RNA提取。 * 巨噬细胞共培养: 酵母细胞与小鼠骨髓来源的巨噬细胞在RPMI培养基中共培养24小时。 * 无巨噬细胞的酵母培养(37°C,RPMI培养基): 作为巨噬细胞共培养的对照。 * 酵母相培养(37°C,HMM培养基): 标准酵母生长条件。 * 霉菌相培养(22°C,HMM培养基): 标准霉菌生长条件。 * 实验处理: 确保样本质量。体内样本分离过程在低温下快速完成(<30分钟)以最小化转录组变化。所有RNA样本均经过质量检测,RNA完整性数(RIN)均较高(体内>7.5,体外>8.7)。 * 测序与表达分析: 构建链特异性RNA-seq文库,使用Illumina平台进行测序。将测序 reads 使用Bowtie比对到ATCC26199的转录本序列上。利用RSEM估算转录本丰度,使用edgeR进行差异表达分析。差异表达的标准设定为错误发现率(FDR)< 0.05且表达量变化倍数≥2。部分关键差异表达基因的结果通过定量实时PCR(qRT-PCR)进行了实验验证。
3. 生物信息学与比较基因组学分析: * 系统发育分析: 从包括本研究6个基因组在内的19个真菌基因组(涵盖Onygenales目多个病原体及曲霉属外群)中,鉴定了2062个单拷贝核心基因。将这些基因的蛋白质序列进行比对并串联,使用RAxML软件构建最大似然系统发育树,并通过1000次自举重复评估节点支持度。同时计算了基因支持频率(GSF)以进一步确认拓扑结构。 * GC含量与基因组结构分析: 计算全基因组滑动窗口的GC含量分布,识别“GC贫乏”区域。通过比较不同物种和不同窗口大小下的分布,揭示了芽生菌特有的双峰分布模式。进一步量化了GC贫乏区域的大小、数量、基因密度、重复序列含量等特征。 * 重复序列分析: 使用从头预测和已知数据库(Repbase)相结合的方法鉴定基因组中的重复序列,特别是转座子。对占主导地位的Gypsy长末端重复(LTR)反转录转座子进行了系统发育亚型分析,以追溯其扩张历史。 * 基因家族进化分析: 使用OrthoMCL等工具进行直系同源基因簇鉴定。通过比较Ajellomycetaceae科内外物种的基因家族,寻找显著扩张或收缩的功能类别(基于PFAM结构域、KEGG通路、GO术语等)。特别关注了与宿主相互作用相关的基因,如蛋白酶、抗原、次级代谢产物合成基因簇等。 * 选择压力分析: 对四个芽生菌基因组中存在的7228个单拷贝直系同源基因,计算非同义替换率与同义替换率的比值(ω),以评估GC贫乏和GC丰富区域基因的进化压力差异。
三、 主要结果 1. 基因组测序与基本特征: 成功完成了所有6个基因组的测序和组装。结果显示,芽生菌属的基因组大小(66.6-75.4 Mb)远大于其他Onygenales目的真菌(约30 Mb),几乎是其两倍以上。然而,其预测的蛋白编码基因数量(~9,180-10,187)与伊蒙菌(~8,563-9,444)及其他近缘物种相似,表明基因组大小的差异主要源于非编码区域的扩张。光学图谱验证了吉氏芽生菌SLH14081大型基因组的组装连续性。
2. 系统发育关系: 基于全基因组数据的系统发育分析提供了强有力的支持,将芽生菌属与细小伊蒙菌(*E. parva*)确定为姐妹群(100%自举支持率,100% GSF)。组织胞浆菌属(*Histoplasma*)被强烈支持为芽生菌-细小伊蒙菌支系的姐妹群,而 crescens伊蒙菌(*E. crescens*)则位于该分支的更外侧,副球孢子菌属(*Paracoccidioides*)处于最基底部。这一结果澄清了先前基于rDNA序列的一些不确定关系,并表明伊蒙菌属在Ajellomycetaceae科内是多系的,暗示感染哺乳动物(包括人类)的能力在该科内可能经历了多次独立的进化获得或丢失。在芽生菌属内,支持SLH14081(吉氏芽生菌)作为其他三株皮炎芽生菌的外群,印证了其作为独立物种的分类地位。
3. 芽生菌基因组的独特结构——GC贫乏的类同质区: 这是本研究最突出的发现之一。所有芽生菌基因组都显示出明显的GC含量双峰分布,存在大量长而边界清晰的“GC贫乏”区域(平均GC约30%),与“GC丰富”区域(平均GC约46%)形成鲜明对比。这种类同质区(isochore-like)结构在其他近缘病原体(组织胞浆菌、副球孢子菌)中不存在,在伊蒙菌中仅轻微显现。 * 规模与特征: 在最小的ER-3基因组中,GC贫乏区域总长达41.1 Mb(占基因组的62%),平均片段长186 kb,最大片段可达1.3 Mb。在最大的SLH14081基因组中,GC贫乏区域达49.1 Mb(占65%),两菌株基因组大小的差异主要源于此区域的扩张。 * 重复序列的海洋: GC贫乏区域几乎包含了基因组中所有的重复序列(ER-3中占93.7%),其中主要是Gypsy LTR反转录转座子。系统发育分析表明,这些Gypsy元件既有祖先时期扩张的,也有在芽生菌谱系内近期特异性扩张的。 * 基因特征: 尽管GC贫乏区域基因密度低(编码区仅占5.6-7.5%),基因间区长(平均~20 kb),但其中包含的基因在功能分类、表达水平(RNA-seq显示与GC丰富区基因无显著差异)和进化选择压力(ω值无显著差异)上与GC丰富区基因相似。一些已知的重要基因如酵母相特异性基因1(*bys1*)也位于此区域。 * 同线性破坏: GC贫乏区域在不同芽生菌菌株间的基因同线性(synteny)远低于GC丰富区域(约74-76% vs. 99%),这可能是由于重复元件的活跃插入导致基因组重排,也支持了吉氏芽生菌与皮炎芽生菌之间的生殖隔离。
4. 基因家族进化: 比较基因组学分析发现,尽管基因组大小悬殊,但芽生菌与Ajellomycetaceae科内其他成员在基因内容上高度保守。未发现与致病性直接相关的大规模基因家族扩张。然而,发现了一些有趣的差异: * 次级代谢: Ajellomycetaceae科的真菌(包括芽生菌)相比其他Onygenales(如曲霉)含有更少的聚酮合酶(PKS)基因簇。 * 蛋白酶: 一些蛋白酶家族(M36, M43, S8)在Ajellomycetaceae中拷贝数较少。 * 潜在毒力相关基因: 鉴定出140个基因簇为Ajellomycetaceae科(芽生菌、伊蒙菌、组织胞浆菌、副球孢子菌)所共有但在其他真菌中缺失,包括一个预测的血红素加氧酶(可能参与从宿主血红素中获取铁)。还发现了一些与已知抗原同源的基因。 * 物种特异性缺失: 通过比较芽生菌与非人类病原的伊蒙菌,发现552个芽生菌特有基因簇。此外,crescens伊蒙菌独缺失了铁载体转运蛋白MirB,这可能暗示其铁获取机制的不同。
5. 转录组动态分析结果: * 巨噬细胞共培养响应: 与无巨噬细胞的对照相比,共培养的酵母有140个基因差异表达,其中112个上调。上调基因主要涉及抗氧化防御(如过氧化氢酶CatP、超氧化物歧化酶Sod3)、氨基酸分解代谢、以及一些转运蛋白(如ABC转运蛋白、锌转运蛋白Zrt3同源物)。这表明芽生菌在应对巨噬细胞吞噬产生的活性氧(ROS)和营养限制时,启动了特定的适应程序。 * 体内感染特异性响应: 通过K-means聚类,鉴定出72个在小鼠肺部感染中特异性上调(相对于所有体外条件)的基因。这些基因主要分为五大功能类别: * 分泌蛋白: 包括一个含CFEM结构域的蛋白(可能与宿主细胞相互作用相关)和最重要的发现之一——一个含HRxxH结构域的分泌蛋白(BDFG_05357),该蛋白是白色念珠菌Pra1(锌载体蛋白,或“zincophore”)的同源物,在芽生菌和组织胞浆菌等近缘种中不存在,提示芽生菌具有独特的锌获取机制。 * 锌获取: 除了上述Pra1同源物,高亲和力锌转运蛋白Zrt1和低亲和力锌转运蛋白Zrt2及其转录调控因子Zap1的同源物均在体内显著上调,形成了一个协调的锌获取模块,暗示宿主环境中锌的稀缺性。 * 抗氧化剂与加氧酶: 超氧化物歧化酶(Sod2, Sod3)在体内进一步上调。同时,多个双加氧酶(如4-羟基苯丙酮酸双加氧酶、半胱氨酸双加氧酶、吲哚胺2,3-双加氧酶)被诱导,表明真菌可能将ROS防御产生的二氧化硫进一步用于氨基酸代谢。 * 氨基酸代谢: 半胱氨酸代谢通路被强烈激活,包括半胱氨酸合酶A(合成)和半胱氨酸双加氧酶(分解)均显著上调。qRT-PCR验证了此结果。值得注意的是,组织胞浆菌的基因组中缺少半胱氨酸合酶A,且已知是半胱氨酸营养缺陷型,这突出了两种病原体在代谢适应上的关键差异。 * 转运蛋白: 多个主要协助转运蛋白(MFS)和氨基酸/金属转运蛋白上调,反映了宿主肺部微环境中营养可用性的不同。
四、 结论与意义 本研究通过整合比较基因组学和体内外转录组学,首次全面揭示了芽生菌属真菌基因组的动态进化特征及其在感染过程中的适应策略,主要得出以下结论: 1. 基因组进化方面: 芽生菌属经历了近期大规模的基因组扩张,主要由Gypsy反转录转座子在特异的GC贫乏区域内爆发式增殖驱动。这种独特的“双相”基因组结构是其近缘物种所不具备的,代表了真菌基因组进化的一种新模式。GC贫乏区域虽然基因密度低、同线性差,但其中的基因功能并未发生系统性偏倚。 2. 系统发育方面: 明确了芽生菌、伊蒙菌、组织胞浆菌和副球孢子菌之间的进化关系,支持芽生菌与细小伊蒙菌为姐妹群,并揭示了伊蒙菌属的多系起源,为理解哺乳动物致病性在Ajellomycetaceae科内的演化提供了新视角。 3. 毒力与宿主适应方面: 转录组分析揭示了芽生菌在感染过程中多层次、精细的适应机制。它不仅通过上调抗氧化酶应对宿主免疫攻击,还通过特异性诱导锌获取系统(如独特的Pra1同源物)、半胱氨酸代谢通路、特定分泌蛋白和转运蛋白,来克服宿主环境的营养限制和压力。这些体内特异性表达的基因,尤其是那些在近缘种中缺失或差异的(如Pra1、半胱氨酸合酶A),是潜在的、以往体外研究可能忽略的关键毒力因子。
科学价值与应用价值: * 科学价值: 本研究为理解双相性真菌病原体的基因组进化动力学设立了新的范例。它揭示了转座子爆发如何塑造病原体基因组景观,并提供了关于毒力进化、宿主-病原体互作和代谢适应的深刻见解。研究建立的基因组和转录组资源为后续功能研究奠定了坚实基础。 * 应用价值: 鉴定出的体内特异性表达基因和物种特异性基因(如Pra1同源物、半胱氨酸代谢相关酶)为开发新的诊断靶点、抗真菌药物或疫苗提供了潜在的候选目标。例如,针对高度表达的角鲨烯单加氧酶(Erg1,抗真菌药物靶点)或独特的锌获取系统,可能设计出更有效的治疗策略。理解病原体在体内的代谢需求(如锌、半胱氨酸)也有助于优化感染模型和治疗方案。
五、 研究亮点 1. 开创性的基因组发现: 首次在真菌中报道了如此大规模、结构化的GC贫乏类同质区,并阐明了其由特定转座子扩张驱动的形成机制,是基因组进化研究的重要案例。 2. 高分辨率的系统发育: 利用全基因组规模的核心基因数据集,解决了该重要病原体群体中长期存在的系统发育关系不确定性。 3. 体内转录组学的深度应用: 通过精心设计的实验,直接比较了真菌在体内(小鼠肺部)与多种体外条件(包括巨噬细胞共培养)下的基因表达,成功剥离了温度、培养基等混杂因素,真正识别出了一批“体内特异性”的感染相关基因。 4. 关键代谢适应因子的识别: 突出强调了锌获取(特别是Pra1同源物)和半胱氨酸代谢在芽生菌体内生存中的核心作用,并通过与近缘种组织胞浆菌的比较,揭示了不同病原体采用的不同宿主适应策略,具有重要的生物学意义。 5. 多学科技术整合: 研究娴熟地结合了Sanger、454、Illumina多种测序技术、光学图谱物理定位、以及全面的生物信息学分析流程,为复杂基因组的解析和功能挖掘提供了方法论参考。
六、 其他有价值内容 研究还讨论了其发现与更广泛生物学背景的联系。例如,将芽生菌的GC贫乏区与植物病原真菌Leptosphaeria maculans的类似区域以及脊椎动物的同质区进行了对比,指出了异同。此外,对上调的双加氧酶功能进行了深入推测,将其与ROS解毒、氨基酸分解代谢以及可能的免疫调节(如吲哚胺2,3-双加氧酶)联系起来,拓宽了对病原体适应机制的理解。研究数据(序列、组装、注释)已公开存入NCBI数据库,便于科学界复用和进一步探索。