关于《Morus atropurpurea基因组重测序揭示其驯化、扩张及性状改良的遗传基础》的学术研究报告
本报告旨在向广大研究人员介绍一篇于2023年发表在期刊《Advanced Science》(Wiley-VCH GmbH出版)上的原创性研究论文。该研究由来自中国多家顶尖科研机构的团队共同完成,主要作者包括戴凡炜(Fanwei Dai)、卓晓刚(Xiaokang Zhuo)、罗国庆(Guoqing Luo)等人,通讯作者为唐翠明(Cuiming Tang)、刘仲健(Zhong-Jian Liu)、王丽(Li Wang)和张志勇(Zhiyong Zhang)。参与单位涵盖了广东省农业科学院蚕业与农产品加工研究所、福建农林大学、北京林业大学、中国农业科学院(深圳)农业基因组研究所、北京农学院等多个机构,体现了跨学科、跨区域的紧密合作。
一、 学术背景
本研究属于植物遗传学、基因组学与驯化生物学交叉领域。桑树(Mulberry, Morus spp.)是丝绸产业的基石,作为家蚕的唯一食料,具有超过五千年的栽培历史,在经济和文化上均具有重要地位。长期以来,桑树也因其药用价值而被利用。尽管其重要性不言而喻,但相较于水稻、玉米等一年生作物,人们对桑树这种多年生木本植物的遗传基础、驯化历史以及关键农艺性状(如叶片大小、开花时间)的调控机制知之甚少。
此前的研究主要聚焦于原产中国北方的白桑(M. alba),并发布了其染色体级别的基因组。然而,桑树种质资源极其丰富,尤其是在中国南方广泛栽培、在亚热带蚕区占据主导地位的华桑并未得到充分研究。华桑的遗传多样性及其与白桑等物种的演化关系、独立的驯化历程等关键科学问题尚未解答。同时,桑树在从南向北的扩张过程中,其开花时间等性状如何适应不同纬度的环境变化,其叶片产量如何通过驯化得到提升,其性别决定机制为何,这些问题的遗传架构仍属空白。
因此,本研究旨在通过构建高质量的华桑参考基因组,并结合大规模种质资源的重测序,达成以下目标:1)阐明华桑的基因组特征及其与白桑的进化关系;2)揭示桑树(特别是华桑与白桑)的种群结构、遗传多样性、驯化起源与地理扩张历史;3)解析控制开花时间、叶片大小和性别决定等关键性状的遗传位点与候选基因。该研究不仅为了解多年生植物的驯化规律提供新见解,也为桑树分子育种提供了宝贵的遗传资源和分子标记。
二、 详细工作流程
本研究是一项系统性工程,整合了基因组从头组装、比较基因组学、群体遗传学、全基因组关联分析(Genome-Wide Association Study, GWAS)以及功能验证实验。
1. 高质量染色体级别基因组组装与注释: * 研究材料: 选取了两个二倍体(2n=28)华桑优良品种:雄性品种“惠秋1号”(‘Huiqiu1’)和雌性品种“塘10号”(‘Tang10’),均广泛种植于中国南方(广东)。 * 测序策略: 采用多平台混合测序以获取高质量组装。对“惠秋1号”,结合了PacBio长读长测序(119×基因组覆盖度)、Illumina短读长测序(30×)和高通量染色体构象捕获技术(Hi-C, 98×)。对“塘10号”,则使用了Oxford Nanopore超长读长测序(304×)、Illumina测序(117×)和Hi-C技术(128×)。 * 组装与挂载: 利用Hifiasm、Canu、SmartDenovo等软件进行初步组装,随后利用Hi-C数据(通过Juicer、3D-DNA、Lachesis等流程)将contig锚定到染色体上,最终获得染色体级别的基因组。对“惠秋1号”成功区分并组装了单倍型A和单倍型B。 * 质量评估: 通过流式细胞术和K-mer分析预估的基因组大小(约308 Mb)与组装结果(305.25-328.97 Mb)高度一致。BUSCO(Benchmarking Universal Single-Copy Orthologs)评估显示核心基因完整性达97%,CEGMA(Core Eukaryotic Genes Mapping Approach)分析显示92%的真核核心基因被覆盖,并与已发表的白桑基因组表现出高度的共线性,证明组装高度完整和准确。 * 基因组注释: 综合运用从头预测、同源比对和转录组证据,预测了约21,000-25,000个蛋白质编码基因,其中超过98%获得了功能注释。同时,鉴定了约占基因组50%的重复序列和约700个非编码RNA。
2. 大规模种质资源重测序与群体遗传分析: * 样本构成: 本研究新测序了290份桑树种质,并结合了已发表的135份数据(包括白桑和川桑M. notabilis),共计425份样本构成了一个具有广泛地理代表性的群体。样本来自中国18个省份及泰国、印度、越南、日本等6个国家。 * 变异检测: 将所有样本的测序读数比对到本研究组装的华桑参考基因组上,利用GATK(Genome Analysis Toolkit)流程进行变异检测。共鉴定出2,359,117个高质量单核苷酸多态性(SNP)和934,187个小片段插入缺失(Indel)。 * 种群结构分析: 基于SNP数据,构建了系统发育树(邻接法),进行了主成分分析(PCA)和群体结构分析(使用ADMIxture软件)。通过交叉验证误差确定最佳祖先成分数(K值)。这些分析清晰地划分了不同的遗传群体。 * 群体历史与基因流分析: 计算了各群体的核苷酸多样性(π)和群体间分化指数(FST)。利用PSMC(Pairwise Sequential Markovian Coalescent)和SMC++模型推断了历史上有效群体大小(Ne)的动态变化。使用Treemix、f3统计和ABBA-BABA(D统计)方法检测了不同群体和物种间的基因流(gene flow)和渐渗(introgression)事件。
3. 关键农艺性状的遗传解析: * 表型调查: 在田间试验中,系统测量了与驯化和适应相关的性状,包括叶片大小、叶片重量、开花时间,并记录了性别表型。 * 全基因组关联分析(GWAS): 针对不同性状,选取相应的样本亚群(例如,分析叶片性状用华桑群体,分析开花时间用华桑、白桑和鲁桑群体,分析性别用华桑的雌雄个体),利用EMMAX等混合线性模型进行GWAS分析,以校正种群结构和亲缘关系的影响。通过Bonferroni校正设定显著阈值。 * 选择清除分析: 通过计算驯化群体(如现代优良品种MECMA)与其可能祖先(如地方品种Landrace1)之间的FST值,在全基因组范围内扫描受到选择的区域(选择性清除区域)。 * 候选基因鉴定: 将GWAS显著信号与选择清除信号重叠的区域作为热点区间,对其中的基因进行功能注释。结合不同组织(如不同发育时期的叶片、花芽)的RNA-seq数据,分析候选基因的表达模式。 * 功能初步验证: 对两个关键的候选基因——可能与开花时间相关的*MaERF110*(乙烯响应转录因子)和可能与叶片大小相关的*MaBXY5*(内切-1,4-β-木聚糖酶)——在模式植物拟南芥(Arabidopsis thaliana)中进行了过表达实验,观察其是否引起相应的表型改变(开花时间或叶片大小变化)。
4. 性别决定区域鉴定: * GWAS定位: 利用104株雌性和70株雄性华桑个体进行性别性状的GWAS分析。 * 区域鉴定: 结合GWAS显著峰和雌雄群体间的FST峰值,将性别决定区域定位到6号染色体的端粒附近。 * 结构变异分析: 通过比较雌雄基因组组装,发现该区域存在显著的结构变异。在雄性基因组中鉴定出一个4.88 Mb的Y单倍型特异性区域,远大于雌性中对应的X单倍型区域(0.24 Mb)。 * 候选基因筛选: 注释了Y特异性区域内的基因,并结合花芽不同发育时期的转录组数据,筛选出在雄性中特异性或高表达的基因作为候选,其中包含一串串联重复的五肽重复序列蛋白基因。
三、 主要研究结果
1. 华桑基因组揭示其进化特征: 成功获得了高质量、染色体级别的华桑二倍体基因组。比较基因组学和系统发育分析表明,华桑与白桑的分化时间约为580万年,它们共同于约1480万年前从它们的近亲川桑分化出来。分析未发现近期全基因组复制事件。基因家族分析显示,华桑特有272个扩张的基因家族和1213个收缩的基因家族,扩张的基因家族富集于植物-病原互作、昼夜节律和类黄酮生物合成等通路,可能与适应性相关。
2. 桑树存在两个独立的驯化谱系: 群体遗传分析将425份种质清晰地分为五大类群:野生群、华桑群(内含地方品种1、地方品种2和现代优良品种亚群)、中国种间杂交群、日本种间杂交群,以及白桑/鲁桑群。关键发现是,栽培桑树并非单一物种,而是主要归属于两个独立的物种——华桑和白桑。系统发育树显示,华桑和白桑各自形成单系群,且它们的野生近缘种分别位于这两个单系群的基部。这表明,华桑和白桑很可能起源于中国南方和北方不同的野生祖先,并经历了独立且平行的驯化过程。
3. 复杂的扩张历史与广泛的基因流: 地理分布分析推断出两条潜在的扩张路线:华桑从中国西南部向南扩散至东南亚国家;而白桑/鲁桑则从中国中部/北部向东、向西扩散至东亚、欧洲和美洲。有效群体大小分析显示,所有桑树群体在第四纪冰期都经历了种群瓶颈。值得注意的是,在末次盛冰期之后,白桑/鲁桑的种群大小出现反弹,而华桑的种群大小则持续下降,暗示了不同的历史人口统计学轨迹。研究还检测到不同群体间存在广泛的基因流,特别是中国的种间杂交品种,其基因组约59%来源于华桑祖先,41%来源于鲁桑祖先;日本的杂交品种则约56%来源于华桑祖先,44%来源于鲁桑祖先。这反映了在驯化和育种过程中频繁的种质交换与杂交,为现代栽培品种贡献了遗传多样性。
4. 关键性状的遗传基础被揭示: * 叶片大小: GWAS和选择清除分析共同在7号染色体上定位到一个与叶片大小和重量显著相关的热点区间。该区间内包含5个串联重复的内切-1,4-β-木聚糖酶基因(MaBXY1-5)。RNA-seq数据显示,MaBXY5 在大叶品种发育后期的叶片中表达量显著高于小叶品种。在拟南芥中过表达MaBXY5 能导致叶片增大,初步验证了其功能。该基因可能通过影响细胞壁多糖代谢来调控细胞扩张,从而在驯化过程中被选择以增大叶片、提高产量。 * 开花时间: 关联分析在5号染色体上鉴定到一个主效位点,其中包含乙烯响应转录因子基因MaERF110。该基因内存在多个与开花时间显著相关的SNP和Indel。根据关键SNP可将品种分为早花和晚花单倍型。有趣的是,在桑树中,晚花品种的MaERF110 表达量反而更高,这与之前在其他植物中的报道不同,暗示了其可能存在新的调控机制。其下游基因*MaAP1*(开花整合子)在晚花品种中表达下调。拟南芥过表达实验证实MaERF110 能影响开花时间。该基因的变异可能帮助桑树在向北扩张时延迟开花,以躲避早春冻害。 * 性别决定: 性别GWAS将决定区域定位到6号染色体的端粒区域。在该区域,雌性个体中约80%的显著SNP为纯合型,而雄性个体中纯合型仅占约36.5%,符合XY性别决定系统的特征。比较基因组发现雄性Y单倍型特异性区域(4.88 Mb)远大于雌性X区域。在该区域内鉴定出42个Y特异性基因,其中一串串联重复的五肽重复序列蛋白基因在雄性花芽中特异性表达。PPR蛋白在植物细胞器基因表达和雄性不育中发挥重要作用,是潜在的性别决定候选基因。此外,还发现了与激素(如乙烯、赤霉素)合成或信号转导相关的基因(如GDSL酯酶/脂肪酶、CYP79B2等),它们可能参与了性别分化的调控网络。
四、 结论与意义
本研究通过整合基因组学、群体遗传学和功能基因组学手段,系统性地揭示了桑树(特别是华桑)的遗传与演化全貌。主要结论包括:1)栽培桑树主要包含华桑和白桑两个独立驯化的物种;2)两者有着不同的起源中心(南、北中国)和扩张路线;3)种间和种内广泛的基因流塑造了现代品种的遗传多样性;4)成功解析了控制开花时间(*MaERF110*)、叶片大小(*MaBXY*基因簇)和性别决定(6号染色体端粒区域,含PPR等候选基因)的关键遗传位点。
科学价值: 该研究极大地增进了人们对多年生木本植物驯化历史的理解,提供了一个独立并行驯化、伴随复杂基因流的经典案例。它展示了多年生作物驯化过程中遗传多样性降低的模式(华桑现代品种遗传多样性降低了24.3%),并揭示了地质气候事件(如第四纪冰期)对物种分化和种群历史的影响。在性状遗传解析方面,发现了在桑树中可能存在独特调控模式的开花时间基因,以及可能与细胞壁合成相关的叶片大小调控新基因。
应用价值: 研究产生的染色体级别高质量华桑基因组、425份种质的高密度变异图谱(SNP和Indel),以及鉴定出的与重要性状紧密关联的分子标记和候选基因(如*MaERF110*、*MaBXY5*、性别决定区标记),为桑树的分子标记辅助选择育种和基因工程育种提供了直接可用的工具和靶点,将加速培育高产、优质、适应性广的桑树新品种,支撑蚕桑产业的可持续发展。
五、 研究亮点